Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

No Format
import pyspark
import requests
import pandas as pd
import json
sc = pyspark.SparkContext('local[*]')

샘플데이터

크롤을 하던지, List를 이용하던지 둘중에 하나를 선택spark 객체는 분산컴퓨팅을위해 여러개를 선택할수도 있으나, 여기서는

로컬 객체 하나만 사용하겠습니다.

pyspark 는 쥬피터 notebook에서 불러온 객체이며 , sc객체를 불러오는 spark객체

샘플데이터

데일리 호텔에서 200개 데이터 획득

Expand
title호텔정보 200개

import requests
import json

chkein = '2018-01-18'
stays = 1
url = 'http://mobile.dailyhotel.co.kr/api/v3/hotels/sales?dateCheckIn={}&stays={}&provinceIdx=5&areaIdx=&page=1&limit=200&persons=2&details=true'.format(chkein,stays)
r = requests.get(url)
data = r.json()
hotels=data['data']['hotelSales']

기본 사용

리스트를 Spark 병렬처리 데이터로 변환

No Format
hotellist2hotellist_sc = sc.parallelize(hotels)


다시 Spark Data를 리스트 데이터로 반환

No Format
hotellist_sc.collect()


SparkData의 시각화 

No Format
df = pd.read_json( json.dumps(hotellist_sc.collect() ) )
df


이렇게 표시됨