Page History
...
spark를 설치하고 셋팅하는방법은 다양하니.. 여기서 언급하지는 않겠습니다. 않으며
여기서는 도커의 all-spark-notebook 을 이용하였습니다. - Docker 설치 참고
...
No Format |
---|
rddHotels = sc.parallelize(hotels)
rddHotels = sc.parallelize(hotels,5) |
이렇게 변환하는 이유는, 대용량 데이터의 복잡한 분산 연산처리를
...
//5개로 쪼게겠다. |
hotels라는 json 데이터를 분산처리를 위한 RDD로 만들어 줍니다.
몇개로 쪼갤지의 결정에따라, 단일지점에서 집계처리(일반적인 RDBMS) 보다 수백배 또는 수천배 빨라질수 있습니다.
( 최적화된 연산처리를위해 몇가지 고급 디플로이셋팅이 필요하긴합니다.)
Spark RDD를 전체 리스트로 반환
No Format |
---|
rddHotels.collect() |
...