Local Standalon Spark를 두 가지 방식으로 설치해보려고 합니다. 첫번째는 코랩에서, 두번째는 로컬(Mac 환경)에서 설치해보겠습니다.
이 경우 로컬인 경우 spark-warehouse에 HDFS 파일이 저장
코랩에서
!pip install pyspark==3.5.3
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").appName('PySpark Tutorial').getOrCreate()

로컬에서 (맥기준)
1. java 설치 확인
$ java -version
안되어 있다면, home brew jdk 설치
2. Java_Home 환경설정



jdk 홈디렉토리가 JAVA_HOME 환경변수를 가리키게 됨
시작할 때 적용되도록 쉘 시작스크립트에도 세팅

export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk-22.jdk/Contents/Home 추가하고 저장
source 명령어로 저장한 쉘스크립트 실행
3. 스파크 설치
스파크 설치 링크로 접속해서 Spark 3.5.3 다운로드 받기
Downloads | Apache Spark
Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS by following these procedures. Note that Spark 3 is pre-built with Scala 2.12 in general and Spark 3.2+ provides
spark.apache.org


스파크 작업디렉토리를 생성하고 해당 디렉토리 내에 다운로드 받은 Spark 3.5.3 파일 옮기고
tar xvf spark-3.5.3-bin-hadoop3.tgz 명령어로 압축 해제하고 설치
설치가 완료되면, SPARK_HOME 설정 필요
pwd 명령어로 spark가 설치된 디렉토리 확인 후 다시 .zshrc 에 아래 코드 추가
export SPARK_HOME=<spark 설치된 디렉토리>/spark-3.5.3-bin-hadoop3
export PATH=$PATH:$SPARK_HOME/bin
4. SPARK SHELL
spark shell을 통해서 로컬 standalone 모드의 spark과 통신
$ spark-shell

포트 4040을 통해 웹 UI 방문

spark shell 닫는 법 :q
5. PYTHON SHELL

exit() 함수로 쉘 빠져나가기
'데브코스 데이터엔지니어링' 카테고리의 다른 글
| [Kafka] 실시간 데이터 처리 (0) | 2024.12.17 |
|---|---|
| [AWS] AWS 회원가입하기 (프리티어 사용) (1) | 2024.12.04 |
| [빅분기] 빅데이터 분석기사 실기 파이썬 기초 요약 정리 (0) | 2024.11.26 |
| 라이브러리 import (0) | 2024.11.26 |
| Docker Hello World 프로그램 실습 (2) | 2024.11.21 |