[Hadoop] 맵리듀스 프로그래밍 실행, hdfs 명령어 정리

프로그램 실행

bin/hadoop jar [jar파일 위치.jar] [프로그램이름] input output

bin/hadoop은 bin/yarn과 같은 명령어

bin/yarn jar ~. 형식으로도 실행가능

HDFS 입력/출력 살펴보기

bin/hdfs dfs -ls input

bin/hdfs dfs -ls output

hdfs 명령어는 리눅스 명령어와 유사하게 사용

# hdfs상에 input이 들어갈 폴더 만들기
# 하둡 폴더로 이동
cd hadoop-3.3.4/
# hdfs [subcommand] [
bin/hdfs dfs -mkdir input
# 'hdfs://127.0.0.1:9000/user/[username]':No such file or directory 에러 발생
# 초기화한 뒤 아직 아무 작업도 하지 않은 상태
# admin역할을 할 user 폴더 만들기
bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/[username]
bin/hdfs dfs -mkdir input
# 파일 생성 확인
bin/hdfs dfs -ls  # 내 홈디렉토리 밑에 생성
# 테스트용 입력파일 만들기
vi words.txt
the brave yellow lion the lion ate the cow now the lion is happy
# 로컬 시스템에 있는 파일을 hdfs로 업로드(input 디렉토리)
bin/hdfs dfs -put words.txt input
# 잘 옮겨졌는지 nput디렉토리에서 확인
bin/hdfs dfs -ls input
# WordCount프로그램(내가 미리 만들어둔 파일) 실행
bin/hadoop jar [jar파일 위치.jar] [프로그램이름] input output # 개발자의 홈디렉토리 기준
# mapreduce.job 실행됨
# 결과 확인
/bin/hdfs dfs -ls output
# output/_SUCCESS
# output/part-r-00000	 # 실제 출력이 들어간 파일
bin/hdfs dfs -cat output/part-r-00000

참고

https://wooono.tistory.com/344

https://blog.voidmainvoid.net/175

저작자표시 비영리 변경금지 (새창열림)

'데브코스 데이터엔지니어링' 카테고리의 다른 글

[Spark] YARN 기반 Spark Cluster 프로그램의 구조 (1)	2024.12.31
[Spark] 아파치 스파크 3.0이란? (0)	2024.12.31
[Hadoop] 리눅스 서버에 의사분산 모드로 하둡 설치하기 (0)	2024.12.31
[Hadoop] 맵리듀스 프로그래밍 (0)	2024.12.31
[Airflow] PostgreSQL 데이터를 Redshift로 적재하는 Airflow DAG 코드 (2)	2024.12.28

프로그램 실행

HDFS 입력/출력 살펴보기

'데브코스 데이터엔지니어링' 카테고리의 다른 글

티스토리툴바