Page History
...
No Format |
---|
import pyspark import requests import pandas as pd import json sc = pyspark.SparkContext('local[*]') |
샘플데이터
크롤을 하던지, List를 이용하던지 둘중에 하나를 선택spark 객체는 분산컴퓨팅을위해 여러개를 선택할수도 있으나, 여기서는
로컬 객체 하나만 사용하겠습니다.
pyspark 는 쥬피터 notebook에서 불러온 객체이며 , sc객체를 불러오는 spark객체
샘플데이터
데일리 호텔에서 200개 데이터 획득
Expand | ||
---|---|---|
| ||
import requests chkein = '2018-01-18' |
기본 사용
리스트를 Spark 병렬처리 데이터로 변환
No Format |
---|
hotellist2hotellist_sc = sc.parallelize(hotels) |
다시 Spark Data를 리스트 데이터로 반환
No Format |
---|
hotellist_sc.collect() |
SparkData의 시각화
No Format |
---|
df = pd.read_json( json.dumps(hotellist_sc.collect() ) )
df
이렇게 표시됨 |