Kafka의 Topic(토픽), Partitions(파티션)

Notice

Recent Posts

Tags more

Archives

관리 메뉴

윤개발

백엔드/kafka

DEV_SJ 2021. 1. 28. 14:56

전송되는 데이터 스트림을 토픽이라 한다. 토픽은 로그가 될수도 있고 어떠한 데이터도 될 수 있다.

그림에서는 hello 라는 이름의 토픽을 가지고 있다.

하나의 토픽은 여러개의 파티션으로 구분된다. 그림에서 hello 토픽은 3개의 파티션으로 나뉘게 된다.

모든 파티션이 다르기 때문에 offset이 같아도 안의 데이터는 다르다.

그림과 같이 topic이름 -> 파티션id -> offset id를 통해 데이터를 식별할 수 있다.

여러개의 파티션을 사용하는 이유는 무엇일까?

하나의 파티션을 사용하게 되면 4개의 메시지를 순차적으로 받아 처리하게 되고 시간이 증가한다.

여러개의 파티션을 사용한다면 병렬처리를 통해 빠르게 처리할 수 있다.

그렇다면 여러개의 파티션을 사용하는 것이 무조건 좋을까?

일단 파티션이 생성되면 파티션의 개수를 줄일 수 없다.

또한 각 파티션들은 복제되기 때문에 파티션의 수가 많을 수록 더많은 용량을 차지한다. 적당한 수의 파티션을 지정하는 것이 좋다.

또 순서가 중요한 데이터의 경우에 병렬처리 하게 되면 각 데이터의 순서를 구별하는 방식이 추가로 필요할 수 있다.

카프카의 기본이 되는 토픽, 파티션, offset을 알아보았다. 다음 포스팅에는 브로커에 대해 알아보자.

5분만에 Apache Kafka 알아보기 (0)	2021.01.28

'백엔드/kafka' Related Articles

Comments