规范是数据治理建章立制的基础,针对标准规范建设不合理及流程规范缺失的问题,我们用体系化的建设思路从整体架构上对数据开发流程及数据治理流程进行划分,并针对全流程数据管治各个环节建设相应规范:
针对上述问题,我们重新收集整理已有规范文档并进行分类,补充缺失文档,优化文档内容,并新增知识中心模块,将知识体系框架产品化,在产品层面维护统一的入口及权限管理,同时严格控制发布流程,解决了标准规范在实际落地时“找不着”、“质量差”、“没权限”等问题。
在数据测试规范落地方面,以往数据测试规范都是通过Wiki维护,无法约束大家实际执行过程,导致数据质量较差,容易出现数据故障。为减少数据开发过程中由于测试不规范而导致数据故障的情况,提升数据质量及业务满意度,我们利用数据中心与数据平台工具组合作共建的ETL测试工具(美团内部工具-八卦炉)来保障测试规范SOP落地执行,要求大家在不影响测试验数效率情况下充分测试,实现数据治理问题在事前约束,减少事后问题量,保障数据质量,工具建设如下图所示:
基于上述问题,我们开发了治理提效工具-SOP自动化工具,汇总多个平台治理工具,将数据治理标准化SOP的各个执行步骤通过工具落地,实现在一个工具内一站式治理能力,约束工程师的治理动作,确保整个治理过程是标准的,效果是可监控的,从而提升了治理效率及治理质量。
比如无效任务的治理,首先需要调研问题治理经验并沉淀至SOP文档,然后将SOP文档中各个执行步骤依次通过自动化的工具进行配置。数据工程师在治理时只需要在一个界面内即可实现全部的治理动作,下图是无效任务治理SOP及美团的自动化工具:
以往大家在开展数据治理工作时主要依赖经验判断,缺乏科学可量化的抓手,对治理问题的严重程度无法准确感知,同时对治理收益的回收也不能准确评估。因此我们开展了数字化的工作,将大家数据开发工作用数据描述,构建整个数据开发工作的准确视图。
框架主要包含元数据仓库、指标体系、数据资产等级以及基于元数仓基础上建立的各个数据应用,利用元数据驱动数据治理及日常团队管理,避免过多依赖经验解决问题,更好地服务业务。下边几个章节将分别介绍数字化框架最核心的数据内容:元数据仓库、指标体系、数据资产等级。
元数据是描述数据的数据,包含数据资产种类、数据存储大小、数据流血缘关系、数据生产过程等信息,存在信息种类多,分布零散,信息不完整的特点。丰富的元数据有助于我们快速了解团队数据资产,让数据资产更加精准,透明。为数据使用和价值释放提供支撑。
图13 元数据仓库主题信息建设
在元数仓分层上,我们采用最常见的四层架构分层方式,分别是贴源层、明细层、汇总层、应用层和维度信息。区别于业务数仓分层设计方式,从明细层就按维度建模思路组织数据,避免过度设计,只需要做好主题划分和解耦。在汇总层从分析习惯出发耦合数据,提升易用性。应用层按需创建所需接口支撑应用。
图14 元数据仓库分层
目前,我们已完成元数据仓库技术域、管理域、业务域部分内容的建设,并已支撑指标体系及上层多个数据应用,未来仍将根据大家在实际工作中核心关注的内容对元数仓进一步补充和完善。
图15 元数据仓库建设成果
4.2.2 指标体系建设
一个问题的衡量需要从多方面进行考虑,只用一个指标无法充分说明问题,这就需要一组有逻辑且相互关联的数据指标来描述问题。在数据开发过程中,需要制定多个指标来监控衡量数据开发团队在质量、安全、效率、成本等方面存在的问题。
此前,住宿数据团队没有一套成熟稳定的指标体系,无法长期准确衡量团队的业务支持能力、技术能力。2020年,我们在元数据仓库基础上搭建了数据治理指标体系,全面衡量了业务数仓建设过程中各类问题,通过指标体系监测工作中的优点与不足,提升了团队的工作能力,进而提高了对业务的支持能力。
建设方案
指标体系的建设目标是监控团队工作状态和变化趋势,需要能够覆盖到工作中的各个方面。因此,在指标体系的建设上,我们通过不同视角对指标体系进行分类,做到不重不漏全覆盖,让指标适用于不同使用场景:
▪ 生命周期视角:从数据本身出发,衡量数据从生产到销毁的各个过程,包括定义、接入、处理、存储、使用、销毁等等。
▪ 团队管理目标视角:根据团队管理核心要达成的目标分类,包括质量、效率、成本、安全、易用性、价值等等。
▪ 问题对象视角:根据治理问题核心关注的对象分类,包括安全、资源、服务、架构、效率、价值、质量等等。
目前我们已建设技术、需求及故障三大类指标共计112个,全面覆盖数据开发中的各个环节:
▪ 技术类指标:覆盖成本、质量、安全、价值及易用性5个方面共57个指标。
▪ 需求类指标:覆盖新增、响应、开发、上线及验收等7个方面共36个指标。
▪ 故障类指标:覆盖故障发现、原因定位及处理环节共19个指标。
▪ 团队管理:帮助团队管理者快速了解团队情况,提升管理效率。
▪ 数据治理:利用元数据及指标体系驱动数据治理,为数据治理提供可量化的抓手。
▪ 项目评估:帮助项目成员准确评估项目的问题、进展及收益。
建设思考
在指标建设过程中,我们沉淀了以下几点经验:
▪ 指标体系既要解决管理者对日常工作无抓手的问题,也要成为具体问题处理人员的治理抓手,兼顾管理者和开发者。
▪ 指标体系是展示偏整体层面的内容,还需通过指标解决实际问题,形成指标体系和数据治理工具闭环,实现发现问题、治理问题、衡量结果持续循环。
▪ 优先确定团队总体发展目标,从目标拆分设定指标,指标尽量覆盖不同业务线不同发展阶段。
▪ 业务需要明确自己所处阶段,针对不同阶段,制定考核目标,衡量阀值,既统一了衡量标准,又中和了大家考核标准。
▪ 指标需注意分层建设,避免“胡子眉毛一把抓”,便于适配目前的组织结构,也便于划分责任与定位。▪ 基础指标体系建设完成后,可作为平时管理和工作的抓手,作为项目发起的依据,作为项目结果评估的手段。
4.2.3 资产等级建设
随着业务快速发展,团队负责的数据资产规模也日益扩大。截止当前,团队共负责离线Hive表3000+,ETL生产任务2000+,人均负责ETL生产任务100+。在面对规模日益扩大的数据资产,团队管理者及数据工程师通常会遇到以下问题:
▪ 只能评经验判断哪些是核心资产,遇到问题无法评估解决的优先级。
▪ 核心链路的保障,比如SLA及DQC的配置范围缺少科学的评估手段。
▪ 管理者对团队核心资产缺乏准确的判断,无法准确有效的做出管理动作。
为丰富元数据之间的关系和内容,挖掘识别更有价值的数据信息,以元数据能力驱动数据研发及运维日常工作,在元数据仓库的基础上我们做了衍生能力即资产等级的建设。资产等级可以对数据的重要性进行科学有效地评估,也可帮助完善数据质量分级监控方案,从而实现对重点任务的重点保障。
下图是数据资产等级通用计算流程,我们首先根据资产类型确认各个影响因子及影响权重值,划分影响因子重要性等级,其次根据各个影响因子数值范围划分得分区间,最后汇总计算得到最终资产等级得分及资产等级结果,并抽样验证结果的准确性。
下图是针对数据表资产等级建设的方法和流程图:
图19 数据表资产等级划分
1)确定影响因子及权重评估
影响因子的确定是资产等级计算中最为关键一环,合理评估影响因子对最终资产等级结果的准确性至关重要。根据实际数据开发中经验可知,影响数据表重要程度主要有以下几个关键因素:
▪ 下游类型:决定下游资产重要程度,下游资产类型一般有ETL任务和数据产品两类,ETL任务及数据产品又根据重要度分为普通型及VIP型。
▪ 下游数量:决定是否是关键节点,对下游生产的影响范围,下游数量越多表明影响范围越大。
▪ 使用热度:决定是否有用,影响查询用户的范围,热度越高表明影响的用户范围越广。
▪ 链路深度及分层:决定问题的修复时间,链路越深,问题修复的时间可能就越长。
确定好影响因子之后,我们需要判断每个影响因子所占的权重值。我们采用层次分析法来计算权重值(层次分析法主要应用在不确定情况下及具有多数个评估准则的决策问题上,具体计算步骤,大家可查阅相关的资料),其优点是把研究对象作为一个系统,按照分解、比较判断、综合的思维方式进行决策,而且计算过程简洁实用。
2)计算资产等级得分
根据实际情况对每个影响因子划分得分区间,并结合每个影响因子权重值,可以计算得到资产等级最终得分。总得分为各影响因子得分与对应权重乘积加和。
3)资产等级映射
我们将资产等级最终得分划分区间至L1 ~ L5,L5为最高资产等级,L1为最低资产等级。
目前,资产等级已运用到日常管治实施,为数据分级管治提供了有力的抓手:
4.3.1 数据百品-管治中心
除了标准化和数字化之外,我们数据治理体系落地仍面临诸多问题:
▪ 数据资产无法统计和描述,管理者及数据工程师不知道有什么,缺乏资产的可视化。
▪ 管理者缺少抓手发现团队的问题,且问题难以追踪。
▪ 治理线上化程度低,需要跳转多个工具,治理效率低,治理过程无法标准化,导致结果无法保障。
针对上述问题,我们搭建了数据百品-管治中心治理平台(美团内部产品),实现了集资产管理、问题分析监控、自动化治理、过程追踪、结果评价的一站式、全覆盖数据治理平台,能有效提升治理质量和效率,为数据质量提升做好强有力的支撑。通过“管+治”相结合的理念,分别从管理者及研发人员的视角对数据、人效等问题实现全面监控,并实现了资产全景、管理中心、治理中心三大模块:
资产全景从管理者+数据RD视角出发,介绍了当前数据现状即有什么的问题,帮助业务线管理者及数据RD实现数据资产可视化,为管理者提供技术管理的抓手,为数据RD提升数据探查和数据使用效率。包含资产大盘、资产目录、个人资产三个子模块:
▪ 资产大盘:从业务线管理者视角出发,展示了业务线内各类资产概览,帮助管理者一站式快速了解组内数据资产,无需跳转多个平台。
▪ 资产目录:展示团队数据各资产类型及明细,为数据RD数据使用提供信息支撑,提升RD数据探查效率。
▪ 个人资产:从归属人视角,展示数据RD个人及小组名下数据资产数量和资产类型及数据明细,详细描述个人资产信息。
数据团队管理者在日常团队管理中时经常会面临两个问题:
▪ 管理手段多依赖经验判断,当团队需求承接增加、团队人数增加时会带来管理难度的提升,管理者缺少抓手快速看到团队的整体情况。
▪ 管理动作天级别。管理者发现团队某核心指标异常(例如:故障数),需要找对应的责任人询问,无法从系统上快速进行异常追踪,原因获取。
管理中心主要从管理者视角出发,解决了怎么管的问题,通过管理者关注的核心指标,为管理者提供监测团队状态、判断团队问题、辅助管理决策的能力,让管理者从“依赖经验管理”转变为“数据驱动管理”。包含管理者大盘、运维管理、需求管理、团队管理四大模块:
▪ 管理者大盘:向管理者提供团队核心指标总览、问题趋势分析、异常明细追踪、异常原因标记等功能,方便管理者快速了解团队情况,及时做出管理动作。
▪ 需求管理:提供详细的人效分析大盘以及需求管理功能,服务于人效管理及提效。
▪ 故障管理:提供详细的故障分析大盘以及故障复盘管理能力,提升故障管理效率。
▪ 团队运营:团队周月报,值班,满意度问卷等团队运营需要的能力,提升运营效率。
日常数据治理过程中,问题责任人解决问题主要有以下痛点:
▪ 不了解分配给自己的待治理问题背景、目标和重要程度。治理工作成为盲目去完成分配的任务,即使完成了治理动作,可能依然无法保证是否真正达到治理目标,尤其是面对同时需要处理多类治理问题时,效果差。
▪ 数据治理解决问题时通常要使用各类工具互相辅助才能解决,问题多了之后,治理问题变成了重复使用不同的工具,严重影响治理效率和效果。
治理中心从问题责任人视角出发,解决了怎么治的问题,为一线治理工程师提供从问题评估分析,到治理,到进度监控的一站式治理能力。将治理工作精细化、常态化运营,提升了数仓治理质量和效率。包含治理概览、分析评估、问题治理、进度监控四大模块。
▪ 治理概览:治理中心首页,介绍了团队数据治理体系框架及标准化治理成果,让使用者在认知上与治理中心的治理理念一致,并提供数据治理优秀解决方案。
▪ 分析评估:对七大类治理问题进行量化评估,提供治理优先级及问题排名,让用户了解应该先做什么。
▪ 问题治理:提供丰富治理指标,全面衡量治理问题,问题分配及时通知,并利用SOP自动化工具,实现对解决问题过程的标准化,保障治理效果,提高治理效率。
▪ 进度监控:提供问题治理进度看板及问题分配进度监控,便于管理者宏观把控问题治理进度,合理规划分配节奏。
图25 治理中心建设思路
4.3.2 SOP自动化工具
在日常数据治理过程中,每个团队都会沉淀若干SOP规范文档来指导大家进行问题治理,减少问题发生。但是在SOP的落地上,依然存在很多问题:
▪ SOP一般以Wiki形式存在,实际执行过程无法跟踪约束。
▪ SOP动作的执行需要跳转多个平台系统,执行效率低下。
建设方案
基于上述问题,我们开发了SOP自动化配置工具。SOP自动化工具是一款SOP配置工具,适用于问题治理类SOP,将治理动作通过工具进行配置以提高治理效率,进而保证过程质量和结果质量。目标是解决SOP规范文档在落地过程中遇到的执行效率低、过程无法跟踪监控的问题,实现一站式解决问题的能力。
SOP自动化工具主要包含基础组建层、配置层及应用层,以下是产品架构图及产品界面:
▪ 基础组建层:SOP最小粒度模块,包括展示类组件(富文本、表格、IFrame),逻辑控制类组件(单选、多选),用户可根据SOP内容选择多个基础组件组合。
▪ 配置层:配置SOP中使用参数信息及执行步骤。
▪ 应用层:SOP最终效果展示,通过URL接口对外提供服务,比如治理中心可调用SOP工具接口实现一站式治理能力。
图26 SOP自动化工具架构
图27 SOP自动化工具产品
SOP实际操作步骤如下:
用户在创建SOP后可选择性配置需要展示的数据信息,然后按照SOP执行步骤依次拖动各个基础组件,并填写执行操作完成SOP的配置工作,在效果预览完成后即可发布上线并生成外嵌URL。自动化工具主要通过外嵌的形式对外提供服务。
通过SOP自动化工具,数据治理已实现了问题解决过程线上化、步骤标准化,很好地保障了治理效果,提升了治理效率。下图是无效存储指标在使用SOP自动化工具前后的流程对比,通过对比,我们可以看到之前工程师需要人工确认若干信息,并跳转多个平台操作,现在只需要在一个界面完成所有动作,极大地减轻了研发人员的工作量。
图29 无效存储流程优化对比
目前,我们团队已完成7大治理域内30多个指标的治理SOP建设,并均已通过自动化工具落地。后续,我们仍将探索其他专项治理内容,并利用SOP自动化工具辅助开展数据治理的工作。
4.3.3 经验总结
通过数据治理系统化的建设,我们总结了以下几点:
▪ 系统化是将解决问题的方法从线下到线上,从散点动作到连贯动作的一种有效解决方案。
▪ 没有完美的系统,也不必追求完美,考虑投入产出比,快速解决主要矛盾,应用到具体问题解决中。
▪ 产品定位设计,产品长远规划的能力设计尤为重要,否则容易出现“做着做着不知道做什么,不知道往什么方向发展”的情况。
五、业务数据治理实施流程
数据治理实施流程,是我们依据业务数据治理标准化框架在实施解决具体数据问题时,总结抽象出来的一套适用于大多数治理场景解决问题的通用标准流程。标准流程的好处在于更加规范化数据治理工程师的操作流程,来保证实施的质量。流程一共包含5个步骤:
▪ STEP 1:发现问题和制定目标,发现问题要从业务数据开发团队的视角出发,围绕服务好业务、遵守数据研发规范、收集好用户反馈,尽可能全地发现和收集相关需要解决的问题。同时,制定的目标要具备可实现性。
▪ STEP 2:针对问题进行拆解,设计可衡量的指标,并通过元数据的采集建设进行实现,用做对目标的进一步量化,并作为实施过程监控及治理抓手。
▪ STEP 3:对衡量出来的具体问题,制定相关的解决SOP,并且检查相应的研发标准规范是否完善,通过问题发生的事前、事中、事后几个阶段,建设或完善相应的工具化解决问题的能力。
▪ STEP 4:推广运营,以拿结果为核心目标,针对不同角色运用不同策略,重点关注问题解决过程是否会与用户利益发生冲突,控制好节奏,根据问题的重要程度有规划地进行解决。
▪ STEP 5:总结沉淀方法论,迭代认知,持续探索问题的最优解,优化治理方案和能力。
经过在数据治理体系化建设上的持续思考与实践,我们的体系化框架基本建立,在数据治理的标准化、数字化和系统化三个方向上取得了较大的进展,并且在业务应用上取得了一定的成绩。更重要的是,我们在数据成本、安全、效率等多个领域都帮助业务解决了实际的问题,尤其是在成本方面,预计每年可以帮助业务可节省数百万的成本,获得了业务方的肯定。
但对比“理想终态”,我们的工作仍任重道远。数据治理体系化框架这个庞大“身躯”中的各个血脉、骨骼、脏腑还需要持续充盈,在流程规范、元数据数仓、指标体系、资产分级等的建设过程中,还有很多需要靠专家经验、人为判断、人工操作串联的场景存在。下一步,我们将在智能化(如智能化元数据服务、智能化数据标准建设等)、自动化(基于治理框架的治理应用场景的线上化建设等)等方面发力。
(以上内容摘录自网络,如有侵权请联系删除)