사용준비
import pyspark import requests import pandas as pd import json sc = pyspark.SparkContext('local[*]')
spark 객체는 분산컴퓨팅을위해 여러개를 선택할수도 있으나, 여기서는
로컬 객체 하나만 사용하겠습니다.
pyspark 는 쥬피터 notebook에서 불러온 객체이며 , sc객체를 불러오는 spark객체
샘플데이터
데일리 호텔에서 200개 데이터 획득
기본 사용
리스트를 Spark 병렬처리 데이터로 변환
hotellist_sc = sc.parallelize(hotels)
다시 Spark Data를 리스트 데이터로 반환
hotellist_sc.collect()
SparkData의 시각화
df = pd.read_json( json.dumps(hotellist_sc.collect() ) ) df 이렇게 표시됨