Page History
...
Request를 통해 크롤링하기
- 크롤링된 데이터를 , 원하는 Json으로 변환하기
SPARK의 분석대상 소스 : 분석대상의 제약이 없다고 보시면 되며, 분석방법은 일괄적이다라고 보시면됩니다.
- RDB( MSSQL, 오라클,MYSQL)
- KAFKA (실시간 스트림)
- NOSQL기반 DB(하둡등등등)
- 로그기반(간단한 전송시스템 필요)
- 크롱링 데이터 바로 소비
기본 사용
Json List객체를 Spark 병렬처리용 RDD로 변환
...