하둡(Hadoop) 이란?
다수의 노드로 구성된 클러스터 시스템(cluster)
An open source software platform for distributed storage and distributed processing of very large data sets on computer clusters built from commodity hardware
- Hortonworks의 정의-
- 분산 파일 시스템 HDFS
- 분산 컴퓨팅 시스템 MapReduce ⇨ 이후에 Spark 등 등장
하둡의 등장 배경
Doug Cutting이 구글랩 발표 논문들에 기반해 만든 오픈소스 프로젝트
- '03 The Google File System
- '04 MapReduce: Simplified Data Processing on Large Cluster
처음은 Nutch라는 오픈소스 검색엔진의 하부 프로젝트였고 하둡은 Doug Cutting의 아들 코끼리 인형의 이름
2006년에 아파치 top level의 별개의 프로젝트로 떨어져 나옴
하둡(Hadoop) 1.0
분산 파일 시스템 HDFS위에 분산 컴퓨팅 시스템 MapReduce가 도는 구조로
MapReduce는 두 개의 오퍼레이션(Map, Reduce)만 지원하기 때문에 낮은 생산성을 개선하기 위해
MapReduce위에 Pig, HIVE, Presto와 같은 다양한 컴퓨팅 언어들(구조화된 데이터를 다루기 쉬워짐)이 만들어짐
하둡(Hadoop) 2.0
조금 더 general한 분산처리시스템을 만들기 위해 YARN이란 이름의 분산처리 시스템을 만들고
Spark, MapReduce는 YARN 위에서 동작하는 애플리케이션 레이어
📌 관련 글 보기
[Hadoop] HDFS 분산 파일 시스템이란
HDFS 분산 파일 시스템 이란?Hadoop Distributed File Sysyem으로 데이터를 블록단위로 나눠서 저장한다. 블록의 크기는 128MB가 디폴트 값으로 수정이 가능하다.큰 데이터를 블럭 단위(128MB)로 잘게 나눠서
ourjune.tistory.com
[Hadoop] 맵리듀스 프로그래밍
맵리듀스 프로그래밍데이터 셋의 포맷은 Key, Value의 pair(집합)로 고정되어 있고 변경이 불가 (immutable)합니다.오퍼레이션 또한 2개로 정해져 있습니다. 오퍼레이션은 map과 reduce로 데이터 조작이
ourjune.tistory.com
'데브코스 데이터엔지니어링' 카테고리의 다른 글
[Hadoop] 하둡 분산 컴퓨팅 시스템 YARN이란? (0) | 2025.01.02 |
---|---|
[Hadoop] HDFS 분산 파일 시스템이란 (0) | 2025.01.02 |
[Spark] AWS EMR 클라우드 기반 Spark 클러스터 실행 (0) | 2025.01.01 |
[Spark] Spark 데이터 프레임 연산 Transformations, Actions, Job (1) | 2025.01.01 |
[Spark] PySpark에서 Spark 세션 생성 (1) | 2024.12.31 |