Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

pyspark를 간단하게 소개하기 위해 샘플데이터라고 표현하였지만, 사실 이 단계가 가장 중요합니다.

필요로하는 집계에 이용되는 데이터의 전체량을 범위한정지어야 하는문제와 동시에, 어디서로부터(DB?,실시간 크롤링,혹은 로그) 온데이터를 가지고

데이터 처리를 할것인가란 주제이며, 여기서는 실시간 API로부터 얻은데이터를 바로 분석을 소비를 하여 Spark을 통해 분석하는 방법을 이용하겠습니다.   

...