Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

spark를 설치하고 셋팅하는방법은 다양하니.. 여기서 언급하지는 않겠습니다. 않으며 

여기서는 도커의 all-spark-notebook 을 이용하였습니다.  - Docker 설치 참고

...

No Format
rddHotels = sc.parallelize(hotels)


rddHotels = sc.parallelize(hotels,5)

이렇게 변환하는 이유는,  대용량 데이터의 복잡한 분산 연산처리를

...

 //5개로 쪼게겠다.

hotels라는 json 데이터를 분산처리를 위한 RDD로 만들어 줍니다.  

몇개로 쪼갤지의 결정에따라, 단일지점에서 집계처리(일반적인 RDBMS) 보다 수백배 또는 수천배 빨라질수 있습니다. 

( 최적화된 연산처리를위해 몇가지 고급 디플로이셋팅이 필요하긴합니다.)


Spark RDD를 전체 리스트로 반환

No Format
rddHotels.collect()

...