Aloudata BigMeta 可自动采集全链路元数据,并可对 SQL 进行高精度解析,无论再复杂的数据网络、再大的数据规模,BigMeta 都可基于任务脚本、执行日志等元数据自动构建算子级数据血缘、抽取字段加工口径,准确率达 99%以上。结合 BigMeta 的字段口径穿透、加工链路比对、重复资产识别、分类打标扩散等能力,数据团队可十倍提升数据资产盘点效率,彻底摆脱纯人工、运动式分析字段口径、梳理上下游依赖等低价值繁琐工作,专注数据资产建设及数据价值创造。
一、经典客户案例
背景:
以数字经济为代表的颠覆性力量,正在催生新的商业模式,企业业务增长越来越依赖数据驱动。在某头部险企,伴随其移动互联网业务创新所获得的显著成果,企业数字化转型也不断深入:公司数据总量越来越多、数据来源越来越复杂——截至 2023 年,总任务数近十万,数据表达 50万+,字段数达千万级,数据链路复杂度剧增,数据资产管理和数据质量保障面临巨大挑战。
其中监管报送和高管指标链路的问题尤为突出。由于看不清报送指标的上游加工链路,上游数据变更往往无法及时通知报送端,导致报送数据容易出现偏差。而现有的基于 Apache Atlas 所构建的表级血缘准确度不高,且粒度太粗,无法准确看清每个指标的来龙去脉,无法做数据标准的保障落地,该企业不得不组织大量人工通过分析代码来梳理每个指标的计算口径和加工链路。
据评估,按照人工每天梳理4 个指标的加工口径,预估需要 6000 个人日,以 20 人专职投入计算,需要 1 年左右才能完成梳理,人员成本投入数百万,且这种梳理结果保鲜难度极高。
关键挑战: 准确、持续盘清百万数据表背后字段口径的关键在于解决以下四个问题
1、精准解析字段血缘 该企业数仓建设历史已有近 5 年之久,任务脚本的写法千差万别,一个任务脚本往往长达千行,且大量使用边缘Hive语法,要实现自动、精细、准确的字段级血缘,挑战极大。
2、字段口径跨层溯源 复杂指标加工链路往往多达数十上百层,然而字段加工口径需要穿透多层代码进行分析,人工盘点只能逐层分析代码,从大篇幅SQL脚本中抽取字段相关计算逻辑,费时费力易出错。
3、资产自动盘点分类 资产盘点的核心目的在于识别链路问题、开展分级数据管理和关键链路保障,而这不仅要求有一份精准、全面的血缘元数据,还需要有基于此之上的资产精准画像及打标扩散能力。
4、字段口径持续保鲜 一个关键指标字段上游往往牵涉成百上千上游资产,上游链路的任一变化都可能造成下游人工梳理的资产盘点结果失真,失效了的字段口径元数据反而会成为数据风险的“地雷”。
解决方案:
基于以上分析,我们建议客户对现有元数据基础能力进行升级,将元数据底座从 Apache Atlas 升级为 Aloudata BigMeta,以增强元数据智能化服务能力,构建新一代资产管理平台,帮助数据团队提升字段口径梳理效率、监控链路风险,并优化资源成本,让数据治理高效、长效,最终达成“降本增效”这一业务目标。
Aloudata 结合客户真实环境,基于 BigMeta 为其设计了一套“数据资产管理平台·元数据基础能力升级”解决方案,实现了以下关键能力升级:
● 统一采集全域、全生命周期元数据,简化元数据集成架构:BigMeta 内置大量元数据采集器,可全自动采集客户多平台(研发平台、调度系统、指标平台、OLAP 平台等)、多技术组件(Hive、Spark等)的元数据,元数据团队无需再维护复杂的元数据采集 ETL 链路,大幅简化现有元数据采集架构。同时基于BigMeta 的元元模型扩展能力统一管理全域元数据,实现了源端和应用端元数据的全联通,让全链路皆可观测。
● 全库算子级血缘解析及字段口径抽取:基于 BigMeta 的算子级 SQL 解析技术所构建的算子级血缘图谱,客户Hive 数仓库内数据血缘解析结果的精准度高达 99%,与此同时,BigMeta 自动抽取的字段口径在准确率和易读性上实现了与专家人工梳理完全一致的效果。
● 自动资产分类,实时打标扩散:基于 BigMeta 的开放知识推理框架和元数据图谱模型,实现了数据资产画像标签的灵活挖掘和全链路资产实时打标扩散,帮助数据团队自动、实时、360°刻画每一份数据资产,从而为实施分类分级的数据安全防控策略提供数据基础。
● 主动、智能的元数据服务,与现有资管平台无缝集成:基于 BigMeta 提供的各类元数据服务 API 及血缘可视化分析组件,可与客户的数据资产管理平台及数据工具无缝集成,无需改变现有用户使用习惯,实现了数据治理能力的透明化升级。 客户收益
● 10 倍提升团队工作效率:从费时费力层层分析 SQL 代码,到一键自动抽取字段口径、图形化展示数据的来龙去脉,BigMeta 让用户理解一份数据的时间从数小时减少到数分钟,工作效率提升至少10倍。
● 10 倍节约数据治理成本:从投入大几百万人工成本来为重点指标做一次静态链路盘点,到依靠系统 24h 即可自动盘清全域数据口径,BigMeta让数据治理的总体投入至少降低十余倍,并实现持续保鲜。
● 实现更自动、更智能、可持续的数据治理:基于一份全面、精细、准确的元数据,数据团队可以大胆实施任何精细化的数据管理策略,告别人工审批、流程管控式的被动数据治理模式,实现主动数据治理。
二、产品优势