我一直在使用alpackkakafka从kafka主题流式传输数据。我正在使用:
Consumer
.committableSource(consumerSettings, Subscriptions.topics(topic))
最近我尝试在一个有15个分区的主题上向更多消费者发送垃圾邮件,比如3。当我用相同的组ID插入更多消费者时,它会友好地为每个消费者拆分5个分区,但它似乎不会同时消费所有分区,它似乎会一个接一个地读取,或者读取特定分区的速度比其他分区快得多。
|Partition|LogSize |Consumer Offset|Lag |
|0 |8,429,145| 6,087,144|2,342,001|
|1 |8,424,948| 6,223,257|2,201,691|
|2 |8,428,121| 7,764,854| 663,267|
|3 |8,421,528| 6,071,425|2,350,103|
|4 |8,434,659| 7,351,552|1,083,107|
|5 |8,428,323| 5,935,336|2,492,987|
|6 |8,424,974| 6,455,301|1,969,673|
|7 |8,431,820| 7,763,984| 667,836|
|8 |8,425,999| 6,370,962|2,055,037|
|9 |8,416,354| 6,681,093|1,735,261|
|10 |8,416,217| 6,814,949|1,601,268|
|11 |8,428,026| 5,878,703|2,549,323|
|12 |8,424,604| 8,424,589| 15|
|13 |8,431,019| 8,431,019| 0|
|14 |8,423,218| 8,423,218| 0|
这是我正在运行的生产应用程序的一个真实示例。所以我有一些问题:
读取某些分区比其他分区快得多可以吗?
请注意,此行为仅发生在我启动多个消费者时。
我应该改变我的消费方式吗?我应该使用每个分区的源,还是有不同的选择?
更新
我怀疑当插入多个消费者(读取多个应用程序)时可能会发生这种情况,但今天只使用一个消费者就发生了这种情况,您可以通过查看消费者组来看到,这是相同的。
在它发生的时候,我有20MM的消息仍在等待处理(滞后)。上图是我们在公司的Kafka经理拍摄的照片。
我们通过删除将消息从一个主题复制到另一个主题的组件来解决这个问题。
本质上,生产者正在写入一个主题,并且此组件将这些消息复制到另一个主题,启用压缩,保留给定id的最后状态。事实证明,此组件无法正常工作,并且附加到此压缩主题的消费者遇到了一些问题。
所以,最终,谁需要一个压实的话题,让生产者直接写信给它。