Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Info

대용량 데이터 분석에 있어서 RDB에서 SQL문만을 사용하여 추출하는 컨셉에서 탈출하고자

NOSQL진영은 무엇을 사용하고 활용하는가? 의 물음에 SPARK를 알게되었고

단순한 집계와 필터처리를 SPARK에서 어떻게 작동시키는가란 단순한 문서정리입니다.


Table of Contents

사용준비

No Format
import pyspark
import requests
import pandas as pd
import json
from pyspark.sql import SparkSession
from pyspark.sql.types import *
from pyspark.sql import SQLContext

sc = pyspark.SparkContext('local[*]')
spark = SparkSession(sc)
sqlContext = SQLContext(sc)

...