Skip to main content

实时校验

一、需求背景

  • 需求痛点
    1. 无法校验kafka topic中流式数据的数据质量。
    2. 如果对每个topic起个实时任务去校验的话,又会占用过多的计算资源。
  • 问题解决
    1. 平台支持接入Kafka数据源。将kafka topic映射为结构化的表,可以像处理关系型数据库一样,校验topic中的数据质量。
    2. 平台支持微批处理,通过配置规则的抽检频率和每次抽检的样本量(如每5分钟抽检topic中最新的1w条数据),达到节省计算资源的目的。

二、规则配置

  • 选择监控对象

    1. 选择已连接的kafka数据源,选择需要校验的topic。
    2. 为topic配置映射表,下一步在映射表的表结构基础上配置相应的校验规则。
  • 配置规则 该步骤和「单表校验规则」相同,请参考新建规则

  • 调度配置

    1. 基本的调度配置和「单表校验规则」相同。
    2. 需要额外维护“样本量上限”配置项,系统会根据配置的调度频率,从该topic中当前最新的数据往前取相应的样本量数据。
    tip

    样本量上限和调度频率需要根据该topic的实际业务情况合理设置。如频率设置过高或者样本量设置太低,抽样的数据则会存在重复的情况

三、校验任务

  1. 实时校验的列表页,每一行既是规则信息,又是实例信息。
  2. 其中实例状态,表示最近一次抽检的校验情况。历史情况可点击topic名称,通过明细和趋势的查看,可了解历史校验情况。
  3. 其他功能和「单表校验规则」相同。