사용준비

import pyspark
import requests
import pandas as pd
import json
sc = pyspark.SparkContext('local[*]')

spark 객체는 분산컴퓨팅을위해 여러개를 선택할수도 있으나, 여기서는

로컬 객체 하나만 사용하겠습니다.

pyspark 는 쥬피터 notebook에서 불러온 객체이며 , sc객체를 불러오는 spark객체

샘플데이터

데일리 호텔에서 200개 데이터 획득

호텔정보 200개

import requests
import json

hotellist_sc = sc.parallelize(hotels)

hotellist_sc.collect()

df = pd.read_json( json.dumps(hotellist_sc.collect() ) )
df


이렇게 표시됨