Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Info

대용량 데이터 분석에 있어서 RDB에서 SQL문만을 사용하여 추출하는 컨셉에서 업그레이드를 하고자

NOSQL진영은 무엇을 사용하고 활용하는가? 의 물음에 SPARK를 알게되었고

단순한 집계와 필터처리를 PYSPARK에서는 어떻게 코딩을 하는가란 단순한 문서정리입니다.


필자는 데이터분석 전문가가 아님을 밝혀두며, 전문가가 제공한 쿼리를 어떻게 이용하고 빠르게

어플리케이션을 통해 전달할까? 메시징 처리에 조금더 중심을둔 어플리케이션 개발자입니다.


Table of Contents

사용준비

No Format
import pyspark
import requests
import pandas as pd
import json
from pyspark.sql import SparkSession
from pyspark.sql.types import *
from pyspark.sql import SQLContext

sc = pyspark.SparkContext('local[*]')
spark = SparkSession(sc)
sqlContext = SQLContext(sc)

...