Page History

Versions Compared

changes.mady.by.user PSMON

Saved on 2017년 Dec 31일

compared with

changes.mady.by.user PSMON

Saved on 2017년 Dec 31일

...

No Format
import pyspark import requests import pandas as pd import json sc = pyspark.SparkContext('local[*]')

크롤을 하던지, List를 이용하던지 둘중에 하나를 선택spark 객체는 분산컴퓨팅을위해 여러개를 선택할수도 있으나, 여기서는

로컬 객체 하나만 사용하겠습니다.

pyspark 는 쥬피터 notebook에서 불러온 객체이며 , sc객체를 불러오는 spark객체

데일리 호텔에서 200개 데이터 획득

Expand

title	호텔정보 200개

import requests
import json

No Format
hotellist2hotellist_sc = sc.parallelize(hotels)

No Format
hotellist_sc.collect()

No Format
df = pd.read_json( json.dumps(hotellist_sc.collect() ) ) df 이렇게 표시됨