logo

Aloudata x 中国民生银行|基于主动元数据建设数据质量风险事前预防机制

中国民生银行基于 Aloudata BIG 主动元数据平台,构建了算子级血缘底座,解决了数据血缘“连不通、看不清、不敢用”的缺陷,建成数据质量风险事前预防机制,实现了指标加工逻辑“一键溯源”和“自动保鲜”,并实现跨团队的变更影响精细化分析与敏捷协同。
背景介绍

2021 年,中国民生银行以“打造敏捷高效、体验极致、价值成长的数字化银行”为目标,明确了全面提升数据能力与科技能力、推进生态银行和智慧银行建设的数字金融策略。在此背景下,新设数据管理部牵头全行数据治理,统筹数据资产管理,并明确了五个数据战略目标:数据可见可访问、数据可用可理解、数据易连接可共享、数据可赋能可增值和数据安全可信。

在此战略下,数据质量管理的重要性日益增强,以监管报送业务为例,随着监管部门规则不断扩充,对规则的核验要求越来越高:“一表通”业务校验规则有数千条之多,并要求对各报送渠道的相关指标进行对比校验。这不仅需要守好报送端的“最后防线”,也要建设数据质量风险事前预防机制。

关键挑战
加工逻辑溯源和保鲜难
盘点指标口径,数据开发人员需要人工阅读和理解指标加工链路上的所有代码逻辑,生成溯源口径文档,还要将技术加工逻辑翻译成业务口径,完成一次全量业务指标盘点需要消耗大量人力。
溯源口径文档还需根据上游代码变更情况进行“保鲜”。依赖人工的口径维护工作效率低,质量与时效性差。
跨团队的数据变更评估难
业务数字化提速,业务系统变更越来越频繁,对下游的变更影响评估带来了极大的压力,甚至因变更协同疏忽,造成线上数据故障。
数据变更影响具有传递性和隐蔽性,单纯依靠传统的“上游靠喊,下游靠自觉”的人工协同模式,极易导致对下游影响面评估的“既漏又错”。
解决方案

为解决以上痛点与挑战,民生银行经过大量调研和论证,最终选择与 Aloudata BIG 合作建设数据质量风险事前预防机制,通过引入算子级血缘解析技术,构建了算子级血缘底座,解决了数据血缘“连不通、看不清、不敢用”的缺陷,实现了指标加工逻辑“一键溯源”和“自动保鲜”,显著提升全链路口径标准化,并实现跨团队的变更影响精细化分析,实现高效的事前数据质量保障。

建设跨系统的算子级血缘,夯实元数据基础
  1. 构建了从上游业务库数据入仓,到各平台加工处理,再输出到仓外集市的算子级血缘图谱,包含 Gauss、Greenplum、Hadoop 等多系统的血缘,也纳入了数据同步系统产生的交换文件传输关系。
  2. 总共采集解析了 100+ 系统模块的 ETL 任务代码和日志,并在血缘准确率上达到了 99% 的可信度,为数据治理和 DataOps 等应用场景打下了坚实的元数据基础。
自动化指标口径溯源盘点,支持长期保鲜
  1. 合并从下游指标字段到上游源端表之间的多层 SQL 加工代码,以源端表字段来表达下游指标字段的加工逻辑,“穿透式归纳”待分析指标字段的技术口径,帮助理解和核对加工任务的处理逻辑。

    图 1:改变过去分工分段指标盘点再汇总的人工协同模式

  2. 支持可视化展示出加工链路并分析和该指标字段相关的 SQL 加工代码。提取出来的 SQL 加工代码中,包含有对应到业务条线、业务分类相关的间接血缘处理代码,可以帮助用户理解指标拆解逻辑。
  3. 利用主动元数据分析技术,读取下游代码中的过滤条件、关联条件特征,裁剪掉与下游表无关的上游链路,实现“行级裁剪”,减少口径溯源结果中的无用噪音,避免“血缘泛化”。

    图 2:指标加工口径理解中要克服“血缘泛化”

精细化评估变更影响,提升上下游协同效率
  1. 自动化识别被修改的元数据结构信息或者任务加工代码,推断出字段口径或者数据行数有变化的表或者字段,精准定位出数据变更的起始位置。
  2. 自动化识别上游的变更内容对下游哪些表或者字段产生了影响,确保下游影响范围“不漏、不错”;也可以指定监控评估上游变更对下游具体集市表是否产生了影响,让下游人员的通知更聚焦。
  3. 自动化对变更影响进行分类,辅助指导开发人员进行代码修改来应对上游的变更。
落地效果
目前民生银行已在“一表通”监管集市指标标准梳理和质量规则布控工作中落地该方案,成果如下:
行内数据血缘升级至算子级
准确度:打通了从总行数据平台到分行数据仓库的血缘链路,血缘准确率达到了 99% 的可信度,确保每日变更和新增的元数据和脚本可以被正确解析。
精细度:血缘解析能力提升至算子级,支持自动提取字段加工口径,包括直接血缘与间接血缘。
指标加工逻辑“一键溯源”和“自动保鲜”
自动化总结指标的溯源加工逻辑,自动提取指标链路上每一层的加工口径,口径盘点效率提升 20 倍,成本下降 90%。
支持可视化展示加工链路和相关 SQL 加工代码,让复杂的数据处理过程变得直观易懂。
解决了传统十大主题域建模方式下常见的"血缘泛化"问题,数据分析的准确性和效率大幅提升。
只需 1 个月即可完成全量指标口径盘点,节省人员成本逾 500 万元。
精细化变更影响评估,10 倍提升上下游应急协同效率
持续分析全链路变更情况,精准定位数据变更的起始位置,变更影响的评估更准确和高效。
自动识别上游变更对下游表或字段的影响,并进行智能分类,提供明确的代码修改指导,10 倍提升上下游应急协同效率,变更管理过程更流畅性。

即刻开启可信智能之旅

我们的行业专家会第一时间联系您,帮助您了解更多