사용준비
import pyspark import requests import pandas as pd import json sc = pyspark.SparkContext('local[*]')
spark 객체는 분산컴퓨팅을위해 여러개를 선택할수도 있으나, 여기서는
로컬 객체 하나만 사용하겠습니다.
pyspark 는 쥬피터 notebook에서 불러온 객체이며 , sc객체를 불러오는 spark객체
샘플데이터
데일리 호텔에서 200개 데이터 획득
기본 사용
리스트를 Spark 데이터 프레임으로 변환
hotellist_sc = sc.parallelize(hotels)
다시 Spark 데이터 프레임을 리스트 데이터로 반환
hotellist_sc.collect()
SparkData의 시각화
df = pd.read_json( json.dumps(hotellist_sc.collect() ) ) df
addrSummary | availableRooms | category | discount | grade | hotelIdx | latitude | longitude | name | regionName | reviewCount |
---|---|---|---|---|---|---|---|---|---|---|
0 | 7 | hotel | 169900 | special1 | 234 | 30.1 | 30.1 | 메이필드호텔 | 서울 | 223 |
여기서 의미 있는 값이 무엇인지? 필드명을 파악합니다.