介绍 如果您恰好与 IT 有任何关系,那么您很可能没有听说过数据治理,尤其是近年来,由于数据隐私和安全法规的兴起,数据治理变得越来越流行。有些人可能称其为流行语,就像大多数流行语背后的事物一样,大多数人谈论它,但并不去做。我们决定花一些时间去了解它到底是什么,以及数据工程师在这一切中应该扮演什么角色。然而,我们认为,在开始工程部分之前,我们需要首先了解基础知识并建立共同基础,以便进一步构建知识,我们将在本文中尝试做到这一点。话虽如此,让我们从我们计划今天讨论的问题和主题开始: ▪ 什么是数据治理? ▪ 为什么要进行数据治理? ▪ 需要多长时间?多少钱?
1.什么是数据治理 “对数据资产管理行使权力、控制和共同决策(规划、监控和执行)。”是 DMBOK 对数据治理的官方定义。然而,在调查这一主题时,我们发现数据治理有多种定义,这些定义大多重叠,但有时又不重叠。考虑到我们希望事情简单易懂,我们认为: 数据治理是一套原则和实践,可确保整个数据生命周期的高质量。它是一个实用且可操作的框架,可帮助利益相关者识别和满足他们的数据需求。 总而言之,数据治理应该服务于所有利益相关者——组织内需要数据的人员(甚至外部,例如如果数据在多家公司之间共享),并且它应该适用于任何组织,无论其主要业务是什么(例如:制造、医药、金融、零售、电信) 话虽如此,当您需要拥有可信、易于获取、可用、集成且安全的数据时,您就会进行数据治理。
2.数据治理涵盖哪些内容 您可能想知道这是否是大多数组织已经做的事情,因为谁不确保数据的高质量或遵循一些原则呢?事实是,您可能做了一些属于数据治理的事情,尤其是主数据管理 (MDM),这是任何与数据相关的业务中的关键步骤。然而,数据治理的目的是将所有这些事情“置于一个治理框架之下”,以更好地系统化并推动必要的组织或技术变革,这样所有这些工作就不会白费。其他要素包括风险管理、指标、数据质量、政策、流程等,您可以在下图中看到。 什么不是数据治理 现在我们已经了解了数据治理的基本定义及其涵盖的内容,最好明确说明数据治理不是什么。 ▪ 数据治理不是一个精确的过程。 ▪ 没有任何算法或书籍可以告诉您实现数据治理的具体步骤。正如我们所说,它是一组特定于您的公司和数据的原则,但创建时考虑到了 GDPR、个人信息保护法或其他全球政策。 ▪ 数据治理不仅仅涉及数据隐私。 ▪ 它涉及围绕数据隐私或安全以及部门间数据交换协议实施流程,但正如我们在上一节中所述,它涵盖的内容远不止这些,例如 MDM、组织变革等。 ▪ 将数据存储在中央存储库或数据湖中不属于数据治理。 ▪ 但是,控制访问和处理存储库中对您的组织有意义并能带来价值的关键数据是数据治理的一部分。 ▪ 总之,数据治理不是信息管理者执行的职能,这意味着管理人员和管理者之间必须有职责分离。
3.数据治理的目标 J. Ladley 在他的著作《数据治理:如何设计、部署和维持有效的数据治理计划》中宣称,数据治理的最终目标是让它不再是一个独立的计划,而是成为业务核心的一部分。就像财务控制和事件已经被视为常规活动而不是特殊计划一样。 虽然这是一个伟大的最终目标,但我们需要找到自己的起点并从那里构建流程。我们需要找到几个目标,这些目标将突出这些数据治理活动需要实现的目标,我们稍后可以将其纳入日常流程中。这里我们决定以四个为例。请记住,数据治理是一个量身定制的流程,目标虽然非常相似,但可能因业务和流程而异。
4.为什么要进行数据治理 现在,希望您对数据治理是什么、不是什么以及数据治理为何重要已经有了一些基本的了解,但可以用一种简单易懂的方式总结一下: 数据治理的好处 成功实施数据治理对公司的好处是巨大的,并且具有复合效应。从更干净、更精简的数据,到数据驱动的决策,创造更好的业务成果。积极的业务成果在提高公司声誉方面发挥着关键作用,从而提高公司的整体市场价值。
5.需要多长时间、多少钱 既然我们已经了解了数据治理的定义和好处,您可能迫不及待地想尽快开始实施其原则。不过,最后要考虑的两个问题是:实施数据治理需要多长时间,成本是多少? 好吧,坏消息是,第一个问题没有直接的答案,而第二个问题的最简短答案是“很多”。但是,如果做得好,数据治理仍然比支付不实施数据治理的后果要便宜。如果从财务损失来看,我们可以说,仅违反 GDPR 的成本就可能高达 2000 万欧元,占公司全球年营业额的 4%。 现在,首席财务官,您可能想要拿出计算器,将罚款成本与组建团队的成本(好消息是您可能已经制定了一些举措)和实施数据治理进行比较,但在这样做之前,请记住泄露机密或敏感数据的后果可能远比表面上看到的严重,例如客户流失或声誉受损,可能会给您的公司带来进一步的财务损失。 如果您尚未开始数据治理,那么制定计划是一个不错的起点。从小处做起,一步一步来,根据反馈进行改进,并记住数据治理是一个持续和迭代的过程,而不是一次性项目。 有趣的事实 对于那些涉案公司来说,情况并不那么好,但以下是一些知名公司出现问题的例子。 ▪ GDPR 不断变化的法规无疑是数据治理的最大驱动力。例如,欧盟的《通用数据保护条例》(GDPR)首次尝试采用近乎全球统一的方法来规范组织使用和存储数据的方式。 ▪ 根据新法律,谷歌 数据治理是强制性的,不遵守规定的组织将面临巨额罚款——最高可达 2000 万欧元或公司全球年营业额的 4%。作为参考,GDPR 罚款可能会让 Alphabet(谷歌)的收入减少两个百分点。 ▪ Equifax 声誉管理可以成为数据治理实施的巨大推动力。一次备受瞩目的数据泄露事件影响了 Equifax、Uber 和 Yahoo 等公司。所有这些公司都遭遇了代价高昂的公关损失。就 Equifax 而言,数据泄露造成的损失高达 9000 万美元。 ▪ Netflix 一位尚未向家人透露其性取向的母亲起诉 Netflix 侵犯隐私,指控这家电影租赁公司在其 100 万美元改进推荐系统的竞赛中,在违背她的意愿的情况下披露了近 50 万客户的不充分匿名信息,从而使她的性取向被人知晓。 下面我们讨论谁进行数据治理以及他们如何进行数据治理。 ▪ 有谁参与? ▪ 如何进行数据治理? ▪ 有数据治理工具吗?
6.谁来做数据治理 数据责任制是数据治理的一个关键概念。了解这一点有助于我们理解为什么组织中的责任和义务是数据治理的关键因素。围绕数据治理的组织需要某种层次结构来实现问题解决、监控和方向设定,这导致存在各种指定的数据治理角色。一些随处可见的角色(如数据所有者或数据管理员)将进一步详细讨论,但是,还有更多角色我们不会深入讨论,例如数据所有者和数据管家。 尽管“数据治理部门”这个术语听起来不错,也很诱人,但它并不存在,也不应该存在。原因是我们希望数据治理成为日常业务运营的一部分,而通过创建专门的团队,我们面临着可能的隔离。大多数时候,数据治理组织是一个由业务和 IT 人员组成的虚拟组织。我们在这里需要强调的是,担任数据治理角色的员工之间需要沟通。请注意,我们这里没有涵盖完整的数据治理角色层次结构,因此我们不会讨论数据治理委员会、办公室或数据管理之类的事情,但请注意,它们确实存在。 数据所有者 简而言之,数据所有者是组织内负责定义数据集质量的人员(通常是高级人员)。他们应确保有既定的定义以及针对数据质量问题采取的措施。他们还负责制定数据质量报告。数据所有者应该能够填写或更新数据中的值。为此,他们需要详细了解数据,并能够访问当前正确的值,即使这意味着有时需要联系客户或进行深入调查。 建议数据所有者担任组织中的高级员工的原因是他们的权威。然而,这种资历水平通常意味着他们不太可能有时间参与与数据质量相关的日常活动。因此,他们可以得到数据管理员和数据质量经理的支持。 数据管理员 数据管理员负责制定政策、实施政策并执行政策,以及每天纠正数据质量问题,因为数据所有者没有时间。数据管理员不需要亲自负责所有工作(即数据工程师帮助实现自动化),但他们应该为其他人提供建议。数据管理是任何数据治理计划的关键部分,需要流程、技术和人员的正确组合才能有效。 那么,数据所有者和数据管理员之间有什么区别呢?嗯,如上所述,数据所有者将承担数据集的整体所有权,但他们没有时间定期参与保持数据清洁的具体活动。 另一方面,数据管理员将深度参与如何实现所设定的数据目标的具体细节,但他们需要咨询数据所有者以了解具体细节。 数据生产者 数据生产者是创建、更新或删除数据的任何人(也可以是部门或个人)。通常,他们应确保源系统中的数据质量(即确保没有不该有的空白字段)。 数据消费者 数据消费者是任何使用数据的人,无论是原始数据、丰富数据还是以报告形式提供的数据。然后,数据消费者使用这些数据进行规划或决策,并创建机器学习算法等。如果数据质量不佳,消费者应该知道该联系谁。
7.如何进行数据治理
整个过程自然始于对希望实施数据治理的组织的成熟度的评估,然后为整个组织提供清晰的愿景(包括指标等)。在下一步中,我们将映射业务和财务价值。完成这部分后,我们可以开始功能设计,其结果是政策、原则和流程设计。之后,我们可以创建一个治理框架设计,将前面步骤中的功能设计放入具有完整角色的组织框架中,等等。只有这样,我们才能进入路线图步骤,规划数据治理的细节(基本上就是我们如何从数据集的非治理状态转变为治理状态)。 除此之外,这里有一张生动的图片,展示了我们如何看待这个过程。请记住,数据治理是一个循环过程,因此在推出后,我们可以回到原点来调整我们的流程。在这张图片中,你可以看到一些可以在特定步骤中使用的工具(如 RACI 模型或调查),以及每个阶段的结果(或一开始的顾虑)。这张图片可能很乱,但它引发了很多笑声,所以当我们在公司谈论数据治理时,这是一个很好的话题。😊 8.有没有什么数据治理的工具 有工具可以支持数据治理的某些部分,但说白了,没有工具可以支持整个数据治理流程。 举几个例子,有用于数据集成的 Apache Gobblin、用于主数据管理 (MDM) 的 Informatica MDM 或 Profisee Platform,以及 Alation 或 Lumada (Waterline) Data Catalog 等数据目录。根据我们的经验,这些工具通常非常昂贵,并不总是用户友好的,最重要的是,它们不能满足数据治理的所有需求。以数据目录工具为例 - 它们可以轻松地将数据的元数据集中到一个地方(表名、模式、属性、描述),甚至可以提供最新的数据样本,但最终还是由数据所有者或管理员来解释数据、识别和管理机密属性,并完成所有其他工作,使组织中的其他人可以轻松访问和使用数据。 在建立数据治理流程时经常使用的还有不同的工具或模型,如调查、SWOT(优势、劣势、机会、威胁)分析、RACI(责任分配矩阵)模型,以及我们认为可以帮助我们处理数据治理的任何其他东西。 数据治理并非易事,其中的关键要素是人。归根结底,数据的生产者、使用者和分析者都是人。数据治理就是当您必须拥有可信任、易于获取、可用、集成和安全的数据时所做的事情。实现所有这些的关键组件很少,我们将在下面介绍它们。
9.数据质量 数据质量描述的是数据的准确性、完整性和一致性。它是数据的准确性、完整性、及时性以及与所有要求和业务规则一致的程度。 为什么? 如下图所示,数据质量是信息本身质量的基石,信息可以转化为知识,帮助制定高质量的决策。这些知识可以产生“智慧”,也就是良好的业务成果。另一方面,糟糕的数据质量可能导致错误或有风险的业务决策、错失机会和财务损失。 数据质量是组织实现数据驱动的关键因素,但数据质量意味着什么呢?从消费者到企业的角度,这个问题有多种答案。我们将在此提到两个最常见的答案。 第一个定义表明,如果数据正确地代表了它所描述的现实世界实体,那么它就是高质量的。第二个定义表明,如果数据适合预期的使用目的,那么它就是高质量的。这些定义以及其他定义经常会导致我们组织中不同方之间的分歧。在这种情况下,我们使用数据治理来帮助他们就定义和标准达成一致。 评估数据质量 为了帮助您评估数据是否高质量,这里列出了您应该能够回答的有关数据的 6 个属性和问题。 10.主数据管理 (MDM) 首先让我们解释一下什么是主数据。主数据是一组统一的标识符和属性,用于描述企业的核心元素,如客户、员工、供应商、站点、层次结构等等。其目的是创建一个“黄金副本”,也可以称为“黄金记录”。它是关键数据主体(即客户)的唯一真实来源,该元素的所有其他用途都必须符合该中央副本或黄金副本的规定。 什么是 MDM Gartner有一个很好的定义:“主数据管理 (MDM) 是一门技术支持的学科,业务部门和 IT 部门共同努力,确保企业官方共享主数据资产的统一性、准确性、管理、语义一致性和可追溯性。”换句话说,MDM 确保整个组织的数据是最新的,并且具有相同的值。我们喜欢 Gartner 的定义,因为它强调了所有 3 个关键领域——这是我们工程师对数据所做的工作,不是手动的,而是借助技术的帮助,基于业务部门的输入,而不是我们自己。数据工程师可以设计这些系统,但可能对来源或业务逻辑不够了解,无法确定哪一个应该作为主要系统以及在哪种情况下。
为什么? 每个企业在日常工作中都会使用多个应用程序和系统(即 ERP、CRM 等)。理想情况下,每个应用程序或系统都用于执行其特定的任务,但通常情况下,有多个系统用于同一目的,这通常是由于历史原因,例如公司收购或合并,或当地政府对全球公司的限制等。这意味着同一个实体实例可以在多个地方具有相同的属性,或者在各处分散不同的数据(例如,员工也是客户),并且并非所有系统中的所有数据都是最新的。这可能会导致重大错误,例如传播不正确的值,甚至会对客户和我们的业务产生影响。一个基本的例子是多次向同一个客户发送相同的营销电子邮件或消息,将某件商品显示为有货但实际上没有,反之亦然——当商品放在某个货架上时,却显示为已售出/缺货。数据分散、重复或过时也意味着无法获得基本的 KPI 或衡量标准,或者很难获得。我们正在讨论回答诸如“我们有多少客户?”或“我们销售了多少件产品?”这样的问题。通过为至少一些实体(客户)实施 MDM,我们可以降低出错风险并提高数据质量。
11.数据目录 数据目录是组织内数据资产的有组织清单。它是一种单一的协作解决方案,可帮助数据专业人员收集、组织、访问和丰富元数据,以支持自助式数据发现和数据治理。我们想进一步强调两个关键词。第一个是协作,因为它强调不同业务领域和组织需要共同努力整理和解释数据(数据管理员),并支持这种协作(数据工程师)。第二个是自助服务,它告诉我们,数据应该以这样的方式记录下来,即组织中的任何人都知道在哪里可以找到它以及如何使用它。 数据目录使用元数据帮助组织管理其数据。元数据是“关于数据的数据”——它定义数据对象的内容并告诉我们“真实”数据在哪里以及它意味着什么。 为什么? 简而言之,当组织拥有大量数据时,数据目录应该可以帮助您找到数据。这听起来很简单,但在大型组织中,您可能无法找到数据甚至数据所有者,这是一个严重的问题。它可以帮助您了解您拥有哪种数据、谁在移动它、它用于什么以及如何保护它或访问数据。此外,它使您能够遵守不同的政策,如 个人信息保护法、GDPR、HIPPA 等。此外,您可以避免在数据周围放置太多层,使其难以使用,从而使其变得毫无用处。 数据目录可以看作是公共图书馆的图书目录。当您去图书馆并需要查找一本书时,您可以使用目录来发现所需的所有信息,以决定是否需要它以及如何找到它(元数据)。此目录通常涵盖所有连接的图书馆 - 因此您可以找到城市中拥有您要查找的书籍副本的每个图书馆,并且可以找到有关每本书的所有详细信息。
12.数据标签 数据标签为用户提供了对数据进行分类的能力,这些数据反映了与隐私相关的考虑和预定条件,以符合法规和公司政策。 为什么? 数据标签允许您根据适用于数据的使用政策对数据集和属性进行分类。标签可以随时应用,为您选择如何管理数据提供灵活性,但最好的方法是在数据到达后立即标记。标签主要用于医疗目的数据(HIPPA)、隐私政策(GDPR)、信用卡交易(PCI DSS)和研究数据集,例如与 COVID-19 相关的数据。
13.数据沿袭 数据沿袭是数据随时间的变化过程,从创建数据的来源,经过转换,到最终目的地。简而言之,数据沿袭就是始终准确地知道数据从哪里来,到哪里去。 为什么? 数据沿袭通过将错误追溯到数据分析过程中的根本原因来提供可见性。它还使您能够重新执行数据流的特定部分以进行逐步调试或重新生成丢失的输出。它通常使用可视化表示来发现数据流或正在经历的各种更改、拆分或任何其他转换(如参数更改)。 数据沿袭并不是一个新概念。在某种程度上,它已经存在于使用 Informatica 等自文档化工具的旧数据仓库中。此外,另一个大问题是视觉表现部分。从理论上讲,它看起来很棒,但实际上……好吧,看看图片: 就像之前讨论的其他主题一样,理论上数据沿袭是一个简单而直接的前向过程,但现实情况却有所不同。有一些工具可以帮助我们做到这一点,但真正的问题是,它们能为我们做多少?根据我们的经验,IT 和业务人员之间的密切沟通始终比工具更重要。
小结 即使是最大的旅程也始于迈出第一小步,因此我们建议只选择几个需要处理的领域并从那里开始。
(以上内容摘录自互联网,如有侵权请联系删除)
|