[Spark] Local Standalone Spark 설치 with 코랩, MAC

Local Standalon Spark를 두 가지 방식으로 설치해보려고 합니다. 첫번째는 코랩에서, 두번째는 로컬(Mac 환경)에서 설치해보겠습니다.

이 경우 로컬인 경우 spark-warehouse에 HDFS 파일이 저장

코랩에서

!pip install pyspark==3.5.3
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").appName('PySpark Tutorial').getOrCreate()

로컬에서 (맥기준)

1. java 설치 확인

$ java -version

안되어 있다면, home brew jdk 설치

2. Java_Home 환경설정

jdk 홈디렉토리가 JAVA_HOME 환경변수를 가리키게 됨

시작할 때 적용되도록 쉘 시작스크립트에도 세팅

 

 

export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk-22.jdk/Contents/Home 추가하고 저장

source 명령어로 저장한 쉘스크립트 실행

3. 스파크 설치

스파크 설치 링크로 접속해서 Spark 3.5.3 다운로드 받기

 

Downloads | Apache Spark

Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS by following these procedures. Note that Spark 3 is pre-built with Scala 2.12 in general and Spark 3.2+ provides

spark.apache.org

HTTP 하단의 링크 클릭시 설치파일 다운로드

 

스파크 작업디렉토리를 생성하고 해당 디렉토리 내에 다운로드 받은 Spark 3.5.3 파일 옮기고

tar xvf spark-3.5.3-bin-hadoop3.tgz 명령어로 압축 해제하고 설치

 

설치가 완료되면, SPARK_HOME 설정 필요

pwd 명령어로 spark가 설치된 디렉토리 확인 후 다시 .zshrc 에 아래 코드 추가

export SPARK_HOME=<spark 설치된 디렉토리>/spark-3.5.3-bin-hadoop3
export PATH=$PATH:$SPARK_HOME/bin​

 

4. SPARK SHELL 

spark shell을 통해서 로컬 standalone 모드의 spark과 통신

$ spark-shell

포트 4040을 통해 웹 UI 방문

spark shell 닫는 법 :q

 

5. PYTHON SHELL

exit() 함수로 쉘 빠져나가기