You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 2 Next »

사용준비

import pyspark
import requests
import pandas as pd
import json
sc = pyspark.SparkContext('local[*]')

spark 객체는 분산컴퓨팅을위해 여러개를 선택할수도 있으나, 여기서는

로컬 객체 하나만 사용하겠습니다.

pyspark 는 쥬피터 notebook에서 불러온 객체이며 , sc객체를 불러오는 spark객체

샘플데이터

데일리 호텔에서 200개 데이터 획득

import requests
import json

chkein = '2018-01-18'
stays = 1
url = 'http://mobile.dailyhotel.co.kr/api/v3/hotels/sales?dateCheckIn={}&stays={}&provinceIdx=5&areaIdx=&page=1&limit=200&persons=2&details=true'.format(chkein,stays)
r = requests.get(url)
data = r.json()
hotels=data['data']['hotelSales']

기본 사용

리스트를 Spark 병렬처리 데이터로 변환

hotellist_sc = sc.parallelize(hotels)


다시 Spark Data를 리스트 데이터로 반환

hotellist_sc.collect()


SparkData의 시각화 

df = pd.read_json( json.dumps(hotellist_sc.collect() ) )
df


이렇게 표시됨





  • No labels