Page History

Versions Compared

Info
대용량 데이터 분석에 있어서 RDB에서 SQL문만을 사용하여 추출하는 컨셉에서 탈출하고자업그레이드를 하고자 NOSQL진영은 무엇을 사용하고 활용하는가? 의 물음에 SPARK를 알게되었고 단순한 집계와 필터처리를 PYSPARK에서는 어떻게 코딩을 하는가란 단순한 문서정리입니다.

Info

대용량 데이터 분석에 있어서 RDB에서 SQL문만을 사용하여 추출하는 컨셉에서 탈출하고자업그레이드를 하고자

NOSQL진영은 무엇을 사용하고 활용하는가? 의 물음에 SPARK를 알게되었고

단순한 집계와 필터처리를 PYSPARK에서는 어떻게 코딩을 하는가란 단순한 문서정리입니다.

...

No Format
siHotel = rddHotels.filter( lambda row : 3 > edit_distance('메아 펠드',row['name'] ) ) siHotel.take(100)

Expand

title	작동결과

Warning
RDB에서 SQL문을 통한 집계처리의 방법은 DataFrame을 사용하여 SPARK에서도 중요한 컨셉이며 중요한 데이터의 소스가 RDB이기때문에 이것을 버리고 생각하는것은 있을수 없는일입니다. RDB의 한계를 단점으로 지적하였지만, 사실 그 한계까지 분석/통계에 대해 이용해본 경험이 부족하기 때문이기도합니다. 대용량데이터라는 추상적인 개념에 가려져 SQL문을 쓰지않겠다, RDB를 이용하지 않겠다란 잘못된 해석을 해왔는데 SPARK를 연구하면서 RDB의 SQL문을 같이 병행해서 학습을 해야할필요가 있으며 ( 의미있고 원한는 데이터가 무엇이냐? 명확한 질의를 한다란것은 어려운주제입니다.) 다만 성능처리문제는 쿼리최적화가 아닌 Spark이 포함한 아키텍을 전반적으로 이해해야하는것으로 역시 어려운 주제입니다.

Warning

RDB에서 SQL문을 통한 집계처리의 방법은 DataFrame을 사용하여 SPARK에서도 중요한 컨셉이며

중요한 데이터의 소스가 RDB이기때문에 이것을 버리고 생각하는것은 있을수 없는일입니다.

RDB의 한계를 단점으로 지적하였지만, 사실 그 한계까지 분석/통계에 대해 이용해본 경험이 부족하기 때문이기도합니다.

대용량데이터라는 추상적인 개념에 가려져 SQL문을 쓰지않겠다, RDB를 이용하지 않겠다란 잘못된 해석을 해왔는데

SPARK를 연구하면서 RDB의 SQL문을 같이 병행해서 학습을 해야할필요가 있으며 ( 의미있고 원한는 데이터가 무엇이냐? 명확한 질의를 한다란것은 어려운주제입니다.)

다만 성능처리문제는 쿼리최적화가 아닌 Spark이 포함한 아키텍을 전반적으로 이해해야하는것으로 역시 어려운 주제입니다.