[Hadoop] HDFS 분산 파일 시스템이란

HDFS 분산 파일 시스템 이란?

  • Hadoop Distributed File Sysyem으로 데이터를 블록단위로 나눠서 저장한다. 
  • 블록의 크기는 128MB가 디폴트 값으로 수정이 가능하다.
  • 큰 데이터를 블럭 단위(128MB)로 잘게 나눠서 다수의 서버에 분산 저장하는 방식으로
  • 저장된 서버 한 대가 고장이 났을 때 데이터 유실이 발생할 수 있으므로, Replication Factor를 적어도 3개로 둬서 각 블럭을 3군데에 중복해서 저장하도록 한다. ➡️ 블록 복제 방식(Replication)
    • 동시에 이 3대의 서버가 고장나지 않는 한 복구가 가능하기 때문에 Falut tolerance를 보장한다.
  • 실제 데이터 블록을 저장하는 데이터 노드가 있고 slave로 볼 수 있고 다수의 노드로 구성되어 있다.
  • 다수의 slave를 관리하는 master로 네임 노드가 존재한다.
  • 하둡 2.0 네임노드 이중화 지원 (High Availablity)
    • Secondary 네임 노드 존재
    • Active & Stanby 모드로 둘 사이에 share edit log가 존재

📌 관련 글 보기

[Hadoop] 하둡(Hadoop)이란?

 

[Hadoop] 하둡(Hapoop) 이란?

하둡(Hadoop) 이란?다수의 노드로 구성된 클러스터 시스템(cluster)An open source software platform for distributed storage and distributed processing of very large data sets on computer clusters built from commodity hardware- Hortonworks

ourjune.tistory.com

[Hadoop] 맵리듀스 프로그래밍

 

[Hadoop] 맵리듀스 프로그래밍

맵리듀스 프로그래밍데이터 셋의 포맷은 Key, Value의 pair(집합)로 고정되어 있고 변경이 불가 (immutable)합니다.오퍼레이션 또한 2개로 정해져 있습니다. 오퍼레이션은 map과 reduce로 데이터 조작이

ourjune.tistory.com

 

 

참고

https://shubhamkhandelwal523.medium.com/how-to-connect-datanode-slave-to-namenode-master-b42a8ae26092