ourjune 님의 블로그
close
프로필 사진

ourjune 님의 블로그

github: @ourjune21

  • 분류 전체보기 (93)
    • 사이언스 (12)
    • 데브코스 데이터엔지니어링 (81)
    • 취업 (0)
  • 홈
  • 태그
  • 방명록

[Hadoop] 리눅스 서버에 의사분산 모드로 하둡 설치하기

✅ 설치환경- 개별JVM으로 실행 (의사분산 모드)- AWS ubuntu EC2 t2.medium 인스턴스 사용- 자바 8 필요 1. AWS EC2 계정 ssh 접속2. Java 8 설치# 자바 버전 확인(설치 확인)java -versionsudo apt install openjdk-8-jre-headless# unable to locate package 오류 발생시sudo apt updatesudo apt install openjdk-8-jdk-headless3. 하둡 계정 만들기# 하둡 계정 생성sudo adduser [username]# 계정 전환su -hdoop# 로컬 호스트로 비밀번호 없이 로그인하도록 설정ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsacat ~/.ssh..

  • format_list_bulleted 데브코스 데이터엔지니어링
  • · 2024. 12. 31.
[Hadoop] 맵리듀스 프로그래밍

[Hadoop] 맵리듀스 프로그래밍

맵리듀스 프로그래밍데이터 셋의 포맷은 Key, Value의 pair(집합)로 고정되어 있고 변경이 불가 (immutable)합니다.오퍼레이션 또한 2개로 정해져 있습니다. 오퍼레이션은 map과 reduce로 데이터 조작이 가능합니다.맵의 입력은 HDFS 데이터 블록, 리듀스의 출력은 HDFS로 저장map은 입력으로 들어온 key-value pair를 다른 key-value pair로 만들어주거나 집합(list) 형태로 만들어 주는 것reduce는 map에서 같은 키를 갖는 출력을 모아서 새로운 키-벨류 페어를 만들어 줍니다. (셔플링) ⇦ map과 reduce는 서로 다른 서버로 네트워크를 통한 데이터 교환이 필요맵과 리듀스는 항상 하나의 쌍으로 연속으로 실행됩니다.맵과 리듀스 안에 함수를 채워주는 역할..

  • format_list_bulleted 데브코스 데이터엔지니어링
  • · 2024. 12. 31.

[Airflow] PostgreSQL 데이터를 Redshift로 적재하는 Airflow DAG 코드

이번에는 PostgreSQL 데이터를 Redshift로 적재하는 ETL 코드를 Airflow DAG로 작성해보겠습니다.  지난 수업에서 PostgreSQL 데이터베이스에 접속하여(psycopg2.connect 사용) csv 파일을 AWS Redshift에 로드하는 extract(), transform(), load()의 3개의 함수를 작성하였습니다. 🔽 이전 게시물 확인하기 Python 라이브러리 psycopg2로 PostgreSQL 데이터베이스 연결psycopg2란?PostgreSQL 전용 Python과 연결을 지원하는 라이브러리다중 스레드와 대량 데이터 처리 지원 psycopg2 주요 기능트랜잭션 관리 commit(), rollback()SQL 실행 execute(), executemany()를 사..

  • format_list_bulleted 데브코스 데이터엔지니어링
  • · 2024. 12. 28.

[Airflow] Airflow Xcom

Xcom이란?Airflow의 태스크(Operator)들간에 데이터를 주고 받기 위한 방식DAG내에서 한 Task의 리턴값을 다른 Task가 사용할 수 있게 전달하는 형태로 사용됩니다. 이 값들은 Airflow 메타 데이터 DB에 저장 되기 때문에 큰 데이터를 주고 받는데는 좋지 않습니다. 데이터가 큰 경우에는 S3등에 로드하고 그 위치를 넘기는 형태로 사용합니다.  Xcom은 key-value 형태로 저장하고, Xcom_push, Xcom_pull, Xcom_pull 과 같은 기능을 제공합니다. Xcom_push(key="식별자", value="전달하려는데이터")Xcom_pop(key="식별자", task_ids="태스크명")Xcom_pull(key="식별자", task_ids="태스크명") Xcom_p..

  • format_list_bulleted 데브코스 데이터엔지니어링
  • · 2024. 12. 28.
[Airflow] Airflow Connections와 Variables

[Airflow] Airflow Connections와 Variables

ConnectionsRedshift와 연결을 해주는 객체 connection 생성시 접속 정보 등이 코드 상에 노출되는 이슈가 있는데 이를 해결하기 위해서 airflow connections를 사용할 수 있습니다. 환경설정 형태로 코드 밖으로 꺼내줍니다.  🔽 관련 글 보기 connection 객체 Python 라이브러리 psycopg2로 PostgreSQL 데이터베이스 연결psycopg2란?PostgreSQL 전용 Python과 연결을 지원하는 라이브러리다중 스레드와 대량 데이터 처리 지원 psycopg2 주요 기능트랜잭션 관리 commit(), rollback()SQL 실행 execute(), executemany()를 사용해 쿼리 실행ourjune.tistory.com Variablespython..

  • format_list_bulleted 데브코스 데이터엔지니어링
  • · 2024. 12. 28.

[SQL] 테이블 레코드 삭제 delete from vs. truncate 차이

delete from vs. truncate 차이DELETE FROM DELETE FROM raw_data.name_gender;TRUNCATETRUNCATE raw_data.name_gender; delete from vs. truncate의 가장 큰 차이점은 truncate은 where 조건문 없이 테이블의 레코드를 다 삭제 하고,delete from은 where문을 사용해서 조건에 따라 레코드를 삭제할 수 있습니다. 트랜잭션에 대해서 truncate은 고려하지 않고 삭제, delete from은 트랜잭션을 고려할 수 있습니다.

  • format_list_bulleted 데브코스 데이터엔지니어링
  • · 2024. 12. 28.
  • navigate_before
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ···
  • 16
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (93)
    • 사이언스 (12)
    • 데브코스 데이터엔지니어링 (81)
    • 취업 (0)
인기 글
전체 방문자
오늘
어제
Copyright © ourjune 모든 권리 보유.
SKIN: Copyright © 쭈미로운 생활 All rights reserved. Designed by JJuum.
and Current skin "dev-roo" is modified by Jin.

티스토리툴바