분산 처리가 가능한 크롤러 설계는

분산처리 개발환경 개발을 연습하기위한 좋은 샘플입니다.


요구사항

  • 크롤은 1024메모리의 최저 사양으로 돌릴것이다. (필요하면 닷넷 코어 리눅스로)
  • 크롤은 아무데나 배포되고, 배포된 크롤은 중앙에서 모니터링이 가능하다.
  • 크롤이 수집하고 있을때, 수집하는 상태를 실시간 모니터링 가능하다.
  • 하나의 수집명령은 트리형태의 크롤잡으로 쪼개어지고 분산이되어야한다.
  • 필요하면 원격지의 명령으로 크롤을 모두 라이브 업데이트 해버리거나 도커화해서 뿌린다.
  • 그 어떠한 미시지큐 써드파티 서비스(ex>레디스,카프카,토끼)등을 쓰지말고 관련 기술을 AKKA를 통해 실시간 메시지및 영속성을 구현한다.


설계에 참고할 크롤러:

https://github.com/petabridge/akkadotnet-code-samples/tree/master/Cluster.WebCrawler

  • No labels
Write a comment…