Skip to main content

Kafka Sink

平台支持将采集到的数据实时写入至Kafka Tpoic,供下游实时数据分析使用。

配置项操作和解释

  • 操作页面:

image-20220629173806735

参数解释:

配置说明
数据有序开启后,实时采集将在写入时保证数据的有序性。此时作业读取、写入并发度仅能为1。
Partition Key只有采集模式为间隔轮训时,才会显示该配置项。
当指定了partition key之后,具有相同key值的数据在采集时就会被写入同一个partition。(partition key必须包含在采集字段中)

写入分区的逻辑

当Topic存在多个Partition分区时,平台底层的写入逻辑会根据不同的配置方式而变化,详见如下表格:

采集源采集数量数据有序写入设置读取并发度写入规则
All单表关闭不设置Partition Key不限制随机写入所有Topic Partition
All单表开启不设置Partition Key读/写并发度为1默认写入第一个Topic Partition且数据有序
All单表关闭设置Partition Key不限制根据Partition Key分区写入,同一Key值保证在同一分区内
All单表开启设置Partition Key读/写并发度为1根据Partition Key分区写入,同一Key值保证在同一分区内且数据有序
日志采集类数据源多表关闭/不限制根据 DB.Schema.Table 对数据表进行分区写入,同一表的数据保证写入同一分区内
日志采集类数据源多表开启/读/写并发度为1根据 DB.Schema.Table 对数据表进行分区写入,同一表的数据保证写入同一分区内且数据有序

常见问题答疑

  • 当采集多表时,如果表数量 > Partition 数量时,如何写入?

    根据Hash取余的规则,将多的表写入到不同的Partition中。

  • 当采集多表时,如果仅有部分表存在对应的Partition Key时,如何写入?

    有对应Partition Key的源表将会根据key value写入对应分区,无Partition Key的源表将会随机写入分区。