일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 인과추론
- airscreen
- 생각정리
- 해시 샘플링
- 해외로 떠나고 싶어요
- pyspark
- SQL
- SQL강의추천
- 맥북미러링
- 쿼리
- 프로모션분석
- 랜덤샘플링
- The running dream
- 코로나 오스트리아 비자
- spark
- 데이터분석
- 오스트리아 비자
- 프로그래머스
- 이커머스데이터분석
- CRM 마케팅
- 해외로 나가고 싶다
- 그로스인턴
- 실무 쿼리
- MBTMI
- 하고싶은건 많고 세상도 넓고
- 런던쌤
- MySQL
- CRM
- 토이프로젝트
- 이중차분법
- Today
- Total
목록Data/Spark (3)
Data, English, Travel

오늘은 저번에 이어 본격적으로 세션을 만들고 데이터를 불러오고, 조작하는 여러 예제를 실습해보았다. 스파크 세션이란? 파이스파크에서 스파크 데이터셋 및 데이터 프래임을 프로그래밍하기 위해서는 이 스파크 세션을 빌드해주어야 한다. 공식문서에서는 스파크 세션의 쓰임을 아래와 같이 언급한다. A SparkSession can be used create DataFrame, register DataFrame as tables, execute SQL over tables, cache tables, and read parquet files. 스파크 세션은 내부적으로 마스터 노드인 SparkContext와 상호작용한다. SparkContext는 클러스터 내의 작업반장과 같은 역할을 하는데, Cluster내의 각 노드에..

오늘은 저번 설치에 이어 러닝스파크 책 p.23~ 34 내용을 실습해보았다. gitbash에서 pyspark를 사용할 경우 (이유는 모르겠지만) 에러가 발생한다. 따라서 윈도우의 경우 cmd에서 `pyspark` 를 실행하여 파이스파이 셸을 사용해보았다. # 첫 대화형 쉘 사용! pyspark spark.version # version checking 나는 한 번 배워보는 입장인지라 일단 로컬 모드에서 구동 및 실습을 진행할 예정이다. 오늘은 대화형 쉘을 활용한 실습을 진행한다. 스파크의 연산은 작업으로 표현되고, 이 작업은 태스크라고 불리는 저수준의 RDD바이트 코드로 변환된다고 한다. 또, 실행은 스파크 이그제큐터에 의해 분산된다고 한다. 먼저 데이터 프레임을 사용한 간단한 예제는 아래와 같다. # ..

오늘은 spark를 설치해보았다. 뜬금없이 spark를 배우는 계기는 두가지가 있는데, 하나는 데이터 분석가 공고 우대요건에서 심심할 때 마다 등장하는 항목으로 spark를 활용한 빅데이터 분석 경험을 적어놔서다. 두 번째는 빅데이터 분석이라는 분야에서 쿼리짤 때 필수적으로 사용되는 도구여서 당장은 쓸모가 없더라도 빅데이터를 다루게 될 날이 온다면 쓰게되지 않을까 싶어서 spark로 쿼리 짜는 수준까지는 공부해보려고 한다. 첫 시작으로 당연이 설치를 해야한다. java 위에서 돌아가는거라 java도 깔아야하고 java의 vm인 jdk도 깔아야하고 복잡해보인다. 그런데 이 블로그 참고해서 차근차근 따라서 깔아보니 1시간 내로는 성공했다. (왜 한시간 '이나' 걸렸냐고 물어본다면, 다 설치하고 마지막 tes..