카프카의 시작
Last updated
Last updated
2011년 구인/구직 플랫폼 이자 소셜 네트워크인 'Linkedin'은 여러 파편화되어있는 데이터 수집 분배 아키텍처를 운영하는 것에 어려움이 있었습니다. 시간이 지날수록 아키텍처는 거대해졌고 소스 애플리케이션과 타깃 애플리케이션의 개수가 점점 많아지면서 데이터의 흐름이 복잡해지기 시작했습니다.
위 그림과 마찬가지로 링크드인 데이터 팀에서는 기존에 있던 사용프레임워크와 오픈소스를 아키텍처에 반영해 데이터 파이프라인의 파편화를 개선하려 노력하였습니다. 그러나 복잡도를 낮추는 아키텍처가 되지는 않았습니다.
다음 그림의 예시를 살펴보도록 하겠습니다.
링크드의 데이터팀은 그러한 고민끝에 위 그림과 같이 아키텍처를 구성할 수 있도록 플랫폼 형태의 어플리케이션을 개발 하였습니다.
카프카는 각각의 애플리케이션 끼리 연결해 데이터를 처리하는 것이 아니라 모든것을 한곳에 모아 처리할 수 있도록 중앙집중화 되었습니다.
기존의 1:1 매칭과는 다르게 데이터 소스는 카프카 내부에 파티션이라는 개념에 저장됩니다. 카프카 내부에 데이터가 저장되는 파티션의 동작은 FIFO 방식으로 적용됩니다.
그림에서 프로듀서로 보이는 것은 데이터가 토픽이라는 공간에 데이터가 들어갈 수있도록 제공하는 역할을 합니다.
컨슈머는 들어간 데이터에서 가져오는 역할을 합니다.