Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

pyspark를 간단하게 소개하기 위해 샘플데이터라고 표현하였지만, 사실 이 단계가 가장 중요합니다.

필요로하는 집계에 이용되는 데이터의 전체량을 범위한정지어야 하는문제와 동시에, 어디서로부터(DB?,실시간 크롤링,혹은 로그) 온데이터를 가지고

데이터 처리를 할것인가란 주제이며, 여기서는 실시간 API로부터 얻은데이터를 바로 분석을 하여 Spark을 통해 분석하는 방법을 이용하겠습니다.   


파이썬주제:

  • Request를 통해 크롤링하기

  • 크롤링된 데이터를 , 원하는 Json으로 추출하기변환하기


기본 사용

...

Json List객체를  Spark 병렬처리용 RDD로  변환

No Format
rddHotels = sc.parallelize(hotels)


rddHotels = sc.parallelize(hotels,5) //더 빠른 연산을 위해 5개로 쪼게겠다.

hotels라는 json 데이터를 분산처리를 위한 RDD로 만들어 줍니다.  

몇개로 쪼갤지의 결정에따라, 단일지점에서 집계처리(일반적인 RDBMS) 보다 수백배 또는 수천배 빨라질수 있습니다. 

SPARK의 장점을 설명하는 가장 심플하고 강력한 코드라고 생각됩니다.

고성능 분산연산을위해 몇개로 쪼갤지 결정하기만 하면됩니다.

( 최적화된 연산처리를위해 몇가지 고급 디플로이셋팅이 필요하긴합니다.)

Spark RDD를 전체 리스트로 반환

No Format
rddHotels.collect()

collect를 수행한다고 전체를 반환하는 과정자체가 수행되지 않습니다. (이 단계에 어떻게 하면 빨리가져올까 Spark이 고민을 하는 단계인지는 모르겠습니다.)

접근할수 있는 참조객체만 얻어오며 실제는 take(5) 를 수행했을때 가져오는 실행문이 수행됩니다.

Expand
title작동결과



SparkRDD 를 데이터셋으로

...