元数据是描述数据的数据,用于打破业务和IT之间的语言障碍,帮助业务更好地理解数据。元数据被认为是数据治理的基石,元数据治理贯彻数据产生、加工、消费的全过程,沉淀了数据资产,搭建了技术和业务的桥梁。 本文介绍什么是元数据和元数据管理,以及常用的元数据管理策略、方法和技术。 元数据是关于数据的数据,它实质上封装了高度结构化字段中有关数据资产的不同属性、历史记录、来源、版本和其他信息,主要用于跟踪、分类和分析。 元数据大致定义为提供有关其他内容的信息的数据,但不提供有关数据实质的信息,例如图片本身或文本消息的内容。它可以帮助用户理解数据的含义,对于确保遵守法规和数据治理计划至关重要。
元数据的示例: 最基本的文本文档的元数据是: 作者, 文件大小, 创建日期, 修改日期。
音乐的元数据可能是: 歌手, 专辑, 轨道持续时间, 比特率等。
图像的元数据可能是: 分辨率, 尺寸, 焦距, 颜色配置文件等。 元数据提供数据的来源、含义、位置、所有权和创建等信息。例如,数字图像中的元数据可能包含其大小、分辨率、创建时间和颜色深度等信息。它有助于数据的分类、组织、标记、排序和搜索。 元数据存储库是存储和管理元数据的数据库。应向数据库提供内容,以确保按预期使用并适当识别内容,例如,数字图像集合的数据库。以下是元数据的作用: 描述:对数据对象的内容、属性的描述,这是元数据的基本功能,是各组织、各部门之间达成共识的基础。 定位:有关数据资源位置方面的信息描述,如数据存储位置、URL等记录,可以帮助用户快速找到数据资源,有利于信息的发现和检索。 检索:在描述数据的过程中,将信息对象中的重要信息抽出并加以组织,建立它们之间的关系,为用户提供多层次、多途径的检索体系,帮助用户找到想要的信息。 管理:对数据对象的版本、管理和使用权限的描述,方便信息对象管理和使用。 评估:由于有元数据描述,用户在不浏览具体数据对象的情况下也能对数据对象有个直观的认识,方便用户的使用。 交互:元数据对数据结构、数据关系的描述方便了数据对象在不同部门、不同系统之间进行流通和流转,并确保流转过程中数据标准的一致性。 元数据以数字化方式描述企业的数据、流程和应用程序,为企业数字资产的内容提供了上下文,使得数据更容易理解、查找、管理和使用。准确的元数据是必不可少的,也是迅速、有效地对数据去粗取精的关键。没有元数据,数据就毫无意义,只不过是一堆数字或文字而已。因此,对于元数据的有效管理是企业数据治理的基础 按照不同应用领域或功能,元数据一般大致可分为:业务元数据、技术元数据和操作元数据、管理元数据。
例如,销售主题的指标体系如下所示,通常包含业务、技术、操作和管理四部分属性内容: ①业务元数据:业务元数据定义数据的业务含义、业务规则等;消除数据二义性,让用户对数据有一致的业务认知,为数据分析和应用提供有力支撑; ②技术元数据:技术元数据明确数据的存储、结构,为应用开发和系统集成奠定基础;通过技术元数据厘清数据关系,支持数据血缘追溯和影响分析; 数据仓库中的技术元数据一般包含以下 4 大系统:数据源元数据、ETL元数据、数据仓库元数据、BI元数据。 数据源元数据:例如:数据源的 IP、端口、数据库类型;数据获取的方式;数据存储的结构;原数据各列的定义及 key 对应的值。 ETL元数据:根据 ETL 目的的不同,可以分为两类:数据清洗元数据;数据处理元数据。 数据清洗元数据:数据清洗,主要目的是为了解决掉脏数据及规范数据格式。因此此处元数据主要为:各表各列的"正确"数据规则;默认数据类型的"正确"规则。 数据处理元数据:数据处理,例如常见的表输入表输出;非结构化数据结构化;特殊字段的拆分等。源数据到数仓、数据集市层的各类规则。比如内容、清理、数据刷新规则。 数据仓库元数据:数据仓库结构的描述,包括仓库模式、视图、维、层次结构及数据集市的位置和内容;业务系统、数据仓库和数据集市的体系结构和模式等。 BI 元数据:汇总用的算法、包括各类度量和维度定义算法。数据粒度、主题领域、聚集、汇总、预定义的查询与报告。 ③操作元数据:操作元数据描述数据的操作属性,包括管理部门、管理责任人等。明确管理属性有利于将数据管理责任落实到部门和个人,是数据安全管理的基础。 ④管理元数据:管理元数据定义数据的操作属性,包括管理部门、管理责任人等;有利于将数据管理责任落实到部门和个人,是数据安全管理的基础。
元数据是描述数据的数据。如何理解? 现在我告诉一个数字:175,你除了对175这个数字有比较确定的量化意义之外,也无法理解175具体代表了什么含义。但是如果是这样描述一下呢? 这样是不是就很清楚了?175的意思是:2020年统计的全国成年男性平均身高,该值的合理阈值是80-260cm,数据目前存在MySQL中,访问连接是XXXXX,由国家统计的张三在2020年1月1日创建,数据目前是公开的,很安全,质量经过多重确认无误的。 在描述175这个数据,用了哪些描述项呢?单位、指标、统计时间、统计范围、合理阈值、数据库、表、字段、接口、创建人、创建时间、数据权限、质量等级等等。这些都是在描述175这个数据。我们把描述175这个数据的其他数据称之为“元数据”。当然,为了管理方便,我们同样还能将上述元数据进行归类。 01 什么是元数据管理 根据维基百科的定义,元数据管理是指与确保正确创建、存储和控制元数据,以便在整个企业中一致地定义数据有关的活动。元数据管理是对涉及的业务元数据、技术元数据、操作元数据进行盘点、集成和管理。采用科学有效的机制对元数据进行管理,并面向开发人员、业务用户提供元数据服务,可以满足用户的业务需求,为企业业务系统和数据分析的开发、维护等过程提供支持。元数据管理是数据治理过程的一部分,而数据治理过程又是整体数据管理策略的一个要素
02 元数据管理的目标 举个例子,将图书馆的图书类比为数据资产:元数据管理的工作是创建图书目录、索引和用户指南,辅助读者进行书籍快速查找和数据阅读。
目前很多企业没有完整的数据治理规划,导致关键信息缺失,元数据的获取比较困难等,因此需要对元数据管理进行整体规划,以更好实现元数据的获取和管理。企业元数据管理需要以业务需求为目标,主要包含: ❖ 元数据治理:实现企业元数据的统一治理,为企业的数据应用开发提供可复用的数据模型和元数据标准。 ❖ 数据治理提升:统一的元数据管理为数据稽查、数据质量管理打下良好的基础,实现数据治理能力和质效的提升。 ❖ 数据资产编目:基于元数据管理实现数据资产分布和数据关系的梳理,快速形成企业数据资产编目;提高数据资产管理效率及应用能力。 03 元数据管理的挑战 尽管企业越来越意识到元数据管理的重要性,但是在实际的数据治理中,元数据管理技术和方法仍面临着很多挑战。 1)局部的元数据管理 虽然很多企业已经意识到元数据管理能够创建对数据的统一描述并确保数据的一致性,但是,目前国内企业的元数据管理多数是建立在新建系统或数据仓库项目的局部治理上,而不是企业级的元数据管理,特别是对于企业采购的套装软件的治理显得十分薄弱。主要原因是,要将中央元数据仓库的元数据与套装软件产生的元数据进行匹配和映射,需要做大量工作。有的企业的元数据管理平台成为摆设,或者只有部分IT人员在用,很少甚至完全没有尝试在整个企业中使用和推广集中化的元数据。这在一定程度上限制了企业数据资产的共享或重用。因此,元数据管理需要全局、集中化的管理策略
2)手动的元数据管理 在企业元数据管理项目的实施中,需要花费很长的时间来完成元数据的梳理和定义、元数据适配器的开发、元数据的采集、元数据的维护等任务。这些任务绝大多数是需要人工手动处理的,手动的元数据管理和维护十分烦琐且容易出错,这使得项目的成本提高,交付的周期变长。因此,元数据管理需要更加有效的方法和自动化程度更高的工具
3)日趋复杂的数据环境 大数据时代,随着越来越多的非结构化、半结构化数据渗透到企业的数字环境中,采用传统的元数据管理方式来采集、处理和检索元数据变得越来越具有挑战性。尤其是在处理复杂的数据关系时,虽然人们很容易根据认知关联来判断两个或多个事物是否相关,但目前的元数据管理工具却常常无法做到。因此,元数据管理需要更智能化的技术。
4)数据的频繁变化 企业的数据是在数据供应链中不断移动的。这里所说的数据供应链,是指从数据创建到数据的加工处理、存储使用的整个生命周期链条。随着数据的不断创建、抽取和转换,有关数据来源、血缘、转换过程、质量级别以及与其他数据的关系的元数据也会随时变化。企业需要将自动化算法和规则应用于数据资产管理中,自动识别和生成元数据,减少手动维护的情况,从而确保元数据描述准确可靠。
04 元数据管理的主要内容 企业数据治理及数据资产流转过程中都会涉及到元数据的管理,包括对数据源、数据湖、数据仓库、数据资产、应用层、BI展示层所对应的元数据进行统一的管理。 企业在确立了元数据管理的目标之后,进行元数据规划以及元数据管理策略的制定。主要包括以下内容: ❖ 元数据管理的基本策略: ①坚持以易用、实用、易理解、准确为基本原则; ②支持异构系统之间元数据标准统一,支持互操作; ③面对复杂多变数据环境支持元数据管理的扩展性。
❖ 元数据的梳理: 根据不同分类框架对元数据进行梳理,通常有以下两种方式,在实际的元数据管理过程中,企业通常需要根据业务需求,两种梳理方式相结合,来构建企业级的元数据地图。 ①站在业务视角梳理:基于企业的业务域或管理域、从业务主题、实体、数据模型等逐层递进分解梳理,形成企业数据目录,通过这种方式形成的元数据易于业务人员理解和使用; ②站在技术视角梳理:通过对数据源对应的IT系统、数据表、数据结构进行分析和梳理,形成企业数据目录;通过这种方式形成的元数据便于IT技术人员理解和使用 ❖ 元数据的定义:对元数据的业务属性、技术属性、管理属性进行标准的定义,主要是描述元数据各属性内容:例如名称、用途、存储位置、历史数据、更新时间等。 ❖ 元数据的采集:通过元数据管理平台中自动化采集能力,对元数据进行识别和获取,包括缺乏原始元数据信息的老旧系统,通过人工进行元数据的补充后,实现统一管理。 ❖ 元数据的管理:在完成对分散在各业务系统中的元数据采集、梳理后,建立技术元数据、业务元数据、管理元数据的映射,形成企业级元数据地图并支持多版本管理。 ❖ 元数据的应用:支持元数据查询、元数据报表以及元数据分析,通过元数据管理平台对相关用户分配相应的元数据使用权限。 ❖ 元数据的变更:各业务系统数据源等信息会随时发生变化,企业可以采用自动识别和主动申请元数据变更两种方式,来落实元数据的变更与新版本的发布。
05 元数据管理的保障体系 企业基于数据治理整体框架,建立元数据管理体系,需要从组织保障、运营制度、业务流程、管理平台等方面确保元数据的落地和持久化运营,帮助企业管理好元数据,使用好元数据。 ❖ 组织保障:组织保障:建立高层支持、中层管理、基础执行三层级专业化数据治理组织,为元数据管理工作提供组织保障。 ❖ 制度保障:元数据管理是企业数据治理基础,需制定配套的管理制度、奖罚措施进行日常运营管理,这是元数据管理持续推进的动力之一。 ❖ 流程保障:确立元数据从产生、定义、发布、变更维护等全过程管理流程,确保元数据管理持续高效推进。 ❖ 管理平台:搭建统一的元数据管理平台,实现企业级元数据集中管控,支持元数据采集、元数据管理、元数据共享等,为元数据管理提供技术保障。
06 元数据的管理工具 谈到元数据管理时,要考虑的最重要的事情之一就是使用的工具。毕竟,即使有定义最明确的元数据治理政策和程序,但如果没有合适的工具来管理和实施它们,努力就会功亏一篑。 首先,市场上有太多的选择。从 Apache Atlas 和 Metadata Repository 等开源产品到 Informatica MDM、Collibra 和 Alation Data Catalog 等商业产品。每个工具都有自己的一组特性和功能,因此进行研究并找到最适合组织需求的工具非常重要。下面,列出了其中一些工具以及提供它们的公司 1)Atlan:主动元数据管理 Atlan是“为云时代重塑数据管理的公司”,是领先的主动元数据管理平台。它们提供个性化的元数据体验、强大的协作功能和开放的 API 架构以支持更强大的连接性。 主要的 Atlan 主动元数据管理产品是数据发现,列级沿袭,数据治理,数据词汇表等。Atlan 用户认可该平台精心构建的搜索功能、无缝集成、用户友好的界面、协作支持以及供应商的客户服务。消费者还欣赏该平台如何帮助管理数据质量和创建自定义元数据。很少有抱怨与个别用例缺乏功能有关。 2)Collibra:针对各种工作流的复杂数据治理 Collibra提供数据智能云平台,可简化和自动化关键数据管理方面。它在 IDC MarketScape 中被定位为领导者:全球数据目录软件 2022 供应商评估。其产品套件包括数据目录,数据治理,数据隐私,数据沿袭,数据质量和可观察性。 大多数用户报告说 Collibra 平台非常适合数据治理,可以针对多个工作流管理进行定制,并与第三方工具很好地集成。然而,评论指出它不是非常用户友好并且需要大量的技术专业知识才能实施 3)Alation:支持自助服务分析和 BI Alation是一家行业公认的提供商,其数据管理解决方案主要侧重于推动自助服务分析、数据治理和云数据迁移。 Alation 通过其数据治理应用程序和数据目录工具支持主动元数据管理。该平台有助于捕获、组织、理解、检索和交换元数据。它充当所有公司数据的数据库,允许用户运行查询,然后在分析和BI 工具中使用这些查询。您还可以利用数据沿袭、影响分析和其他方便的功能。 4)Informatica:具有基于机器学习的数据编目功能的数据管理软件 Informatica是另一个成熟的数据管理系统——智能数据管理云(IDMC)的供应商。它支持数据集成、数据质量、主数据管理以及元数据管理等其他方面。 其屡获殊荣的企业数据目录工具建立在基于机器学习的发现引擎之上,可跨多个来源扫描和编目数据资产。它为数据消费者提供强大的搜索功能,自动关系发现,详细的数据沿袭,分析统计,数据质量记分卡,数据相似性建议,影响分析功能,以及综合业务词汇表。活动元数据作为 IDMC 的统一基础,推动进一步的分析和其他数据管理流程。用户特别强调数据管理和自动更正功能以及一般的易用性,尽管有些人指出功能列表不足和平台性能不佳。 07 元数据的应用 1)数据资产地图 按数据域对企业数据资源进行全面盘点和分类,并根据元数据字典自动生成企业数据资产的全景地图。该地图可以告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什么。数据资产地图支持以拓扑图的形式可视化展示各类元数据和数据处理过程,通过不同层次的图形展现粒度控制,满足业务上不同应用场景的图形查询和辅助分析需要。
2)元数据血缘分析 元数据血缘分析会告诉你数据来自哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的血缘关系追根溯源,快速定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度。
3)元数据影响分析元数据影响分析会告诉你数据去了哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系向下追踪,快速找到有哪些应用或数据库使用了这个数据,从而最大限度地减小数据问题带来的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW等应用的影响分析。血缘分析是向上追溯,影响分析是向下追踪,这是这两个功能的区别
4)元数据冷热度分析元数据冷热度分析会告诉你哪些数据是企业常用数据,哪些数据属于僵死数据。其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰地看到数据的活跃程度,以便他们更好地驾驭数据,处置或激活僵死数据,从而为数据的自助式分析提供支撑。
5)元数据关联度分析元数据关联度分析会告诉你数据与其他数据的关系,以及它们的关系是怎样建立的。关联度分析是从某一实体关联的其他实体及其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,如表与ETL程序、表与分析应用、表与其他表的关联情况等,从而进一步了解该实体的重要程度。
6)元数据接口建立元数据查询、访问的统一接口规范,以将企业核心元数据完整、准确地提取到元数据仓库中进行集中管理和统一共享。元数据接口规范主要包括接口编码方式、接口响应格式、接口协议、接口安全、连接方式、接口地址等方面的内容。
总结 在当今数字化时代,元数据已经成为企业和组织管理和利用数据的重要组成部分。通过对元数据进行统一定义、管理、分析、清理、更新和维护,可以提高数据质量、降低风险、提高效率,并为业务决策提供更加准确和可靠的支持。因此,元数据是数据治理的灵魂,在实践中具有非常重要的意义。
(以上内容来源于网络,如有侵权请联系删除)
|