实时校验
一、需求背景
- 需求痛点
- 无法校验kafka topic中流式数据的数据质量。
- 如果对每个topic起个实时任务去校验的话,又会占用过多的计算资源。
- 问题解决
- 平台支持接入Kafka数据源。将kafka topic映射为结构化的表,可以像处理关系型数据库一样,校验topic中的数据质量。
- 平台支持微批处理,通过配置规则的抽检频率和每次抽检的样本量(如每5分钟抽检topic中最新的1w条数据),达到节省计算资源的目的。
二、规则配置
选择监控对象
- 选择已连接的kafka数据源,选择需要校验的topic。
- 为topic配置映射表,下一步在映射表的表结构基础上配置相应的校验规则。
配置规则 该步骤和「单表校验规则」相同,请参考新建规则。
调度配置
- 基本的调度配置和「单表校验规则」相同。
- 需要额外维护“样本量上限”配置项,系统会根据配置的调度频率,从该topic中当前最新的数据往前取相应的样本量数据。
tip样本量上限和调度频率需要根据该topic的实际业务情况合理设置。如频率设置过高或者样本量设置太低,抽样的数据则会存在重复的情况
三、校验任务
- 实时校验的列表页,每一行既是规则信息,又是实例信息。
- 其中实例状态,表示最近一次抽检的校验情况。历史情况可点击topic名称,通过明细和趋势的查看,可了解历史校验情况。
- 其他功能和「单表校验规则」相同。