[Hadoop] HDFS 분산 파일 시스템이란

HDFS 분산 파일 시스템 이란?

Hadoop Distributed File Sysyem으로 데이터를 블록단위로 나눠서 저장한다.
블록의 크기는 128MB가 디폴트 값으로 수정이 가능하다.
큰 데이터를 블럭 단위(128MB)로 잘게 나눠서 다수의 서버에 분산 저장하는 방식으로
저장된 서버 한 대가 고장이 났을 때 데이터 유실이 발생할 수 있으므로, Replication Factor를 적어도 3개로 둬서 각 블럭을 3군데에 중복해서 저장하도록 한다. ➡️ 블록 복제 방식(Replication)
- 동시에 이 3대의 서버가 고장나지 않는 한 복구가 가능하기 때문에 Falut tolerance를 보장한다.
실제 데이터 블록을 저장하는 데이터 노드가 있고 slave로 볼 수 있고 다수의 노드로 구성되어 있다.
다수의 slave를 관리하는 master로 네임 노드가 존재한다.
하둡 2.0 네임노드 이중화 지원 (High Availablity)
- Secondary 네임 노드 존재
- Active & Stanby 모드로 둘 사이에 share edit log가 존재

📌 관련 글 보기

[Hadoop] 하둡(Hapoop) 이란?

하둡(Hadoop) 이란?다수의 노드로 구성된 클러스터 시스템(cluster)An open source software platform for distributed storage and distributed processing of very large data sets on computer clusters built from commodity hardware- Hortonworks

ourjune.tistory.com

[Hadoop] 맵리듀스 프로그래밍

[Hadoop] 맵리듀스 프로그래밍

맵리듀스 프로그래밍데이터 셋의 포맷은 Key, Value의 pair(집합)로 고정되어 있고 변경이 불가 (immutable)합니다.오퍼레이션 또한 2개로 정해져 있습니다. 오퍼레이션은 map과 reduce로 데이터 조작이

ourjune.tistory.com

참고

https://shubhamkhandelwal523.medium.com/how-to-connect-datanode-slave-to-namenode-master-b42a8ae26092

저작자표시 비영리 변경금지 (새창열림)

'데브코스 데이터엔지니어링' 카테고리의 다른 글

[Spark] 데이터 파일 포맷 (Text, JSON, PARQUET 등 비교) (0)	2025.01.02
[Hadoop] 하둡 분산 컴퓨팅 시스템 YARN이란? (0)	2025.01.02
[Hadoop] 하둡(Hapoop) 이란? (0)	2025.01.02
[Spark] AWS EMR 클라우드 기반 Spark 클러스터 실행 (0)	2025.01.01
[Spark] Spark 데이터 프레임 연산 Transformations, Actions, Job (1)	2025.01.01

HDFS 분산 파일 시스템 이란?

'데브코스 데이터엔지니어링' 카테고리의 다른 글

티스토리툴바