
HDFS 분산 파일 시스템 이란?
- Hadoop Distributed File Sysyem으로 데이터를 블록단위로 나눠서 저장한다.
- 블록의 크기는 128MB가 디폴트 값으로 수정이 가능하다.
- 큰 데이터를 블럭 단위(128MB)로 잘게 나눠서 다수의 서버에 분산 저장하는 방식으로
- 저장된 서버 한 대가 고장이 났을 때 데이터 유실이 발생할 수 있으므로, Replication Factor를 적어도 3개로 둬서 각 블럭을 3군데에 중복해서 저장하도록 한다. ➡️ 블록 복제 방식(Replication)
- 동시에 이 3대의 서버가 고장나지 않는 한 복구가 가능하기 때문에 Falut tolerance를 보장한다.
- 실제 데이터 블록을 저장하는 데이터 노드가 있고 slave로 볼 수 있고 다수의 노드로 구성되어 있다.
- 다수의 slave를 관리하는 master로 네임 노드가 존재한다.
- 하둡 2.0 네임노드 이중화 지원 (High Availablity)
- Secondary 네임 노드 존재
- Active & Stanby 모드로 둘 사이에 share edit log가 존재
📌 관련 글 보기
[Hadoop] 하둡(Hapoop) 이란?
하둡(Hadoop) 이란?다수의 노드로 구성된 클러스터 시스템(cluster)An open source software platform for distributed storage and distributed processing of very large data sets on computer clusters built from commodity hardware- Hortonworks
ourjune.tistory.com
[Hadoop] 맵리듀스 프로그래밍
맵리듀스 프로그래밍데이터 셋의 포맷은 Key, Value의 pair(집합)로 고정되어 있고 변경이 불가 (immutable)합니다.오퍼레이션 또한 2개로 정해져 있습니다. 오퍼레이션은 map과 reduce로 데이터 조작이
ourjune.tistory.com
참고
'데브코스 데이터엔지니어링' 카테고리의 다른 글
| [Spark] 데이터 파일 포맷 (Text, JSON, PARQUET 등 비교) (0) | 2025.01.02 |
|---|---|
| [Hadoop] 하둡 분산 컴퓨팅 시스템 YARN이란? (0) | 2025.01.02 |
| [Hadoop] 하둡(Hapoop) 이란? (0) | 2025.01.02 |
| [Spark] AWS EMR 클라우드 기반 Spark 클러스터 실행 (0) | 2025.01.01 |
| [Spark] Spark 데이터 프레임 연산 Transformations, Actions, Job (1) | 2025.01.01 |