사용준비

import pyspark
import requests
import pandas as pd
import json
sc = pyspark.SparkContext('local[*]')

spark 객체는 분산컴퓨팅을위해 여러개를 선택할수도 있으나, 여기서는

로컬 객체 하나만 사용하겠습니다.

pyspark 는 쥬피터 notebook에서 불러온 객체이며 , sc객체를 불러오는 spark객체

샘플데이터

데일리 호텔에서 200개 데이터 획득

호텔정보 200개

import requests
import json

hotellist_sc = sc.parallelize(hotels)

hotellist_sc.collect()

df = pd.read_json( json.dumps(hotellist_sc.collect() ) )
df

addrSummary	availableRooms	category	discount	grade	hotelIdx	latitude	longitude	name	regionName	reviewCount
0	7	hotel	169900	special1	234	30.1	30.1	메이필드호텔	서울	223

여기서 의미 있는 값이 무엇인지? 필드명을 파악합니다.