Page History

Versions Compared

...

spark를 설치하고 셋팅하는방법은 다양하니.. 여기서 언급하지는 않겠습니다. 않으며

여기서는 도커의 all-spark-notebook 을 이용하였습니다. - Docker 설치 참고

...

No Format
rddHotels = sc.parallelize(hotels) rddHotels = sc.parallelize(hotels,5)

이렇게 변환하는 이유는, 대용량 데이터의 복잡한 분산 연산처리를

...

 //5개로 쪼게겠다.

hotels라는 json 데이터를 분산처리를 위한 RDD로 만들어 줍니다.

몇개로 쪼갤지의 결정에따라, 단일지점에서 집계처리(일반적인 RDBMS) 보다 수백배 또는 수천배 빨라질수 있습니다.

( 최적화된 연산처리를위해 몇가지 고급 디플로이셋팅이 필요하긴합니다.)

No Format
rddHotels.collect()

...