[Hadoop] 하둡(Hapoop) 이란?

하둡(Hadoop) 이란?

다수의 노드로 구성된 클러스터 시스템(cluster)

An open source software platform for distributed storage and distributed processing of very large data sets on computer clusters built from commodity hardware
- Hortonworks의 정의-

분산 파일 시스템 HDFS
분산 컴퓨팅 시스템 MapReduce ⇨ 이후에 Spark 등 등장

하둡의 등장 배경

Doug Cutting이 구글랩 발표 논문들에 기반해 만든 오픈소스 프로젝트

'03 The Google File System
'04 MapReduce: Simplified Data Processing on Large Cluster

처음은 Nutch라는 오픈소스 검색엔진의 하부 프로젝트였고 하둡은 Doug Cutting의 아들 코끼리 인형의 이름

2006년에 아파치 top level의 별개의 프로젝트로 떨어져 나옴

하둡(Hadoop) 1.0

분산 파일 시스템 HDFS위에 분산 컴퓨팅 시스템 MapReduce가 도는 구조로

MapReduce는 두 개의 오퍼레이션(Map, Reduce)만 지원하기 때문에 낮은 생산성을 개선하기 위해

MapReduce위에 Pig, HIVE, Presto와 같은 다양한 컴퓨팅 언어들(구조화된 데이터를 다루기 쉬워짐)이 만들어짐

하둡(Hadoop) 2.0

조금 더 general한 분산처리시스템을 만들기 위해 YARN이란 이름의 분산처리 시스템을 만들고

Spark, MapReduce는 YARN 위에서 동작하는 애플리케이션 레이어

📌 관련 글 보기

[Hadoop] HDFS 분산 파일 시스템이란

[Hadoop] HDFS 분산 파일 시스템이란

HDFS 분산 파일 시스템 이란?Hadoop Distributed File Sysyem으로 데이터를 블록단위로 나눠서 저장한다. 블록의 크기는 128MB가 디폴트 값으로 수정이 가능하다.큰 데이터를 블럭 단위(128MB)로 잘게 나눠서

ourjune.tistory.com

[Hadoop] 맵리듀스 프로그래밍

[Hadoop] 맵리듀스 프로그래밍

맵리듀스 프로그래밍데이터 셋의 포맷은 Key, Value의 pair(집합)로 고정되어 있고 변경이 불가 (immutable)합니다.오퍼레이션 또한 2개로 정해져 있습니다. 오퍼레이션은 map과 reduce로 데이터 조작이

ourjune.tistory.com

저작자표시 비영리 변경금지 (새창열림)

'데브코스 데이터엔지니어링' 카테고리의 다른 글

[Hadoop] 하둡 분산 컴퓨팅 시스템 YARN이란? (0)	2025.01.02
[Hadoop] HDFS 분산 파일 시스템이란 (0)	2025.01.02
[Spark] AWS EMR 클라우드 기반 Spark 클러스터 실행 (0)	2025.01.01
[Spark] Spark 데이터 프레임 연산 Transformations, Actions, Job (1)	2025.01.01
[Spark] PySpark에서 Spark 세션 생성 (1)	2024.12.31

하둡(Hadoop) 이란?

하둡의 등장 배경

하둡(Hadoop) 1.0

하둡(Hadoop) 2.0

'데브코스 데이터엔지니어링' 카테고리의 다른 글

티스토리툴바