새 문서 공간에 오신 것을 환영합니다!
빅데이터를 다루는 기술및 다양한 오픈스택과
그것을 다시 이용하는 기술들을 가볍게 정리하는 공간입니다.
분석에 사용되는 데이터의 종류
- 시스템로그
- 어플리케이션로그
- RDB에 적재된 데이터
- 사용자유입및 트래킹로그
- 중요이벤트(결제,취소등)
- 크롤링데이터: 내부서비스에서 생산하지 못하는정보
저장소분리
- RDB
- 시스템로그
- 어플리케이션로그
- 트래킹및 유입로그 + 기타수집로그
분석툴
- 엘라스틱서치/Splunk : 주로 어플리케이션 로그를 분석하여 의미있는 데이터를 찾기위한 용도 (BI가 주로사용)
- OpenNMS : 주로 시스템을 포함한 어플리케이션 모니터링을 위한툴이며 엘라스틱서치와도 연동이 되도록함 (데브옵스가 주로사용)
- SPARK ML/주피터 : 의미있는 빅데이터의 분석을 얼마나 빠르게하고 사용자에게 적절하게 제공할지 고민이 포함된 분석툴 (BA를 포함한 서비스개발자가 주로사용)
FastData
이벤트는 다양한 서비스 경로로부터 생성이되며, 사용자가 클릭한 마우스 클릭한 좌표의 히스토리를 데이터화 할수도 있습니다.
이것을 어느시점까지 모아두고 처리할까란 주제이며 배치보다는 빠르게 소비하고 생산을 해내는 빠른 데이터 처리 방향으로 가고 있습니다.
주로 Streams을 이용하는 방법과 각기 다른 장치들을 유지하고 통합하는 방법에 대한 고민도 같이 하게 됩니다.
- Akka Streams
- Spark Streams
- KAFKA
위 그림은 라이트벤드 제안의 빅픽쳐의 일부이며, 대부분의 빠른 빅데이터처리란 주제에대해
구성요소가 약간식 다를뿐 위와같은 모습을 가지고 있습니다.
근미래에 더좋은방법이 등장하고 대부분의 기술이 대체될것이지만,
현시점 구글링을 하면 대부분 위와같은 아키텍구성을 만나게됩니다.
빅데이터를 다룰려면, 한가지 기술만 사용되지 않고 그와 연관된 모든것과 연동을 해야하는 과제가 있습니다.
그렇기 때문에 항상 최신 기술만 사용한다란 의미도 아닙니다. 오히려 과거 기술들을 모두 이해해야 하는 어려움이 있습니다.
특별 페이지
There is no content with the specified labels