Page History
Info |
---|
대용량 데이터 분석에 있어서 RDB에서 SQL문만을 사용하여 추출하는 컨셉에서 업그레이드를 하고자 NOSQL진영은 무엇을 사용하고 활용하는가? 의 물음에 SPARK를 알게되었고 단순한 집계와 필터처리를 PYSPARK에서는 어떻게 코딩을 하는가란 단순한 문서정리입니다. 필자는 데이터분석 전문가가 아님을 밝혀두며, 전문가가 제공한 쿼리를 어떻게 이용하고 빠르게 어플리케이션을 통해 전달할까? 메시징 처리에 조금더 중심을둔 어플리케이션 개발자입니다. |
Table of Contents |
---|
사용준비
No Format |
---|
import pyspark import requests import pandas as pd import json from pyspark.sql import SparkSession from pyspark.sql.types import * from pyspark.sql import SQLContext sc = pyspark.SparkContext('local[*]') spark = SparkSession(sc) sqlContext = SQLContext(sc) |
...