[Spark] AWS EMR 클라우드 기반 Spark 클러스터 실행

EMR(Elastic MapReduce). AWS의 Hadoop 서비스(On-demand Hadoop)로 Hadoop(YARM), Spark, Hive, Notebook(Zeppelin) 등이 설치되어 제공되는 서비스.

EC2 서버들을 worker node로 사용하고 S3를 HDFS로 사용

AWS의 EMR 클러스터 생성
- EMR 생성시 Spark 실행(옵션 선택)
- S3를 기본 파일 시스템으로 사용
EMR의 마스터 노드를 드라이버 노드로 사용
- 마스터 노드를 SSH 로그인(spark-submit 사용)
- Spark의 Cluster 모드에 해당

🔽 관련 포스팅 확인 Cluster 모드가 무엇인지 모른다면?

[Spark] YARN 기반 Spark Cluster 프로그램의 구조

Spark 프로그램의 구조Driver실행되는 코드의 마스터 역할 수행(YARN의 Application Master)사용자 코드를 실제 Spark 태스크로 변환해 Spark 클러스터에서 실행실행모드(client, cluster)에 따라 실행되는 곳이

ourjune.tistory.com

Spark History Server가 Spark Web UI 입니다.

Spark 마스터 노드에 ssh로 로그인하여 spark-submit을 통해 실행

ssh -i [프라이빗키.pem] hadoop@[마스터 호스트 이름]

spark-submit --master yarn [예제프로그램].py

[Hadoop] HDFS 분산 파일 시스템이란 (0)	2025.01.02
[Hadoop] 하둡(Hapoop) 이란? (0)	2025.01.02
[Spark] Spark 데이터 프레임 연산 Transformations, Actions, Job (1)	2025.01.01
[Spark] PySpark에서 Spark 세션 생성 (1)	2024.12.31
[Spark] YARN 기반 Spark Cluster 프로그램의 구조 (1)	2024.12.31

티스토리툴바