Data/Spark
[TIL] pyspark(1) - 아나콘다 가상환경에 설치하기
J._.haza
2023. 3. 17. 01:52
오늘은 spark를 설치해보았다.
뜬금없이 spark를 배우는 계기는 두가지가 있는데,
하나는 데이터 분석가 공고 우대요건에서 심심할 때 마다 등장하는 항목으로 spark를 활용한 빅데이터 분석 경험을 적어놔서다.
두 번째는 빅데이터 분석이라는 분야에서 쿼리짤 때 필수적으로 사용되는 도구여서 당장은 쓸모가 없더라도 빅데이터를 다루게 될 날이 온다면 쓰게되지 않을까 싶어서 spark로 쿼리 짜는 수준까지는 공부해보려고 한다.
첫 시작으로 당연이 설치를 해야한다. java 위에서 돌아가는거라 java도 깔아야하고 java의 vm인 jdk도 깔아야하고 복잡해보인다. 그런데 이 블로그 참고해서 차근차근 따라서 깔아보니 1시간 내로는 성공했다. (왜 한시간 '이나' 걸렸냐고 물어본다면, 다 설치하고 마지막 test 파일 실행 단계에서 test파일 디렉토리명을 pyspark라고 지어놔서 oserror 5번이 계속 떴다. 그러나 언제나 구글신과 스택오버플로가 도와서 해결했다. 그냥 파일명만 spark_practice로 패키지와 무관하게 변경함.)
추가로 나는 아나콘다환경에서 pyspark라는 가상환경을 하나 만들어 pip 으로 설치했다.(가상환경 이름이 문제가 되지는 않겠지...?)
conda create pyspark
conda activate pyspark
pip install pyspark
설치 과정에서 이렇게 귀요미한 스파크 문구도 볼 수 있다.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 3.3.2
/_/
Using Python version 3.11.0 (main, Oct 24 2022 18:26:48)
그리고 `pyspark` 모듈까지 잘 설치하고 나면 4040 포트에서 spark UI를 확인해볼 수 있다.
오늘은 여기까지