在数据时代,数据呈现出爆发式增长,数据中蕴藏的价值也逐渐被人挖据出现,大数据和人工智能等技术蓬勃发展,促进了以数据为驱动的新型发展模式。数据是数据时代中重要的基石,基石的质量影响着上层建筑的质量。 一、数据质量产生的原因 设计数据处理方案以前,先行需要了解数据质量问题产生的原因,信息化技术只能解决部分数据质量问题,另外需要配合适当的管理性措施,保障数据质量。 数据质量产生的原因,可以概括如下几个方面: (一)技术 从数据生命周期来看,从数据采集、数据模型设计、数据存储、数据传输和原有系统定位等各个方面,都是数据质量可能性的故障点。 (二)业务 从业务层面看对于数据要求,可能会因为业务要求不清晰、要求变更、录入不规范、人为造价等都可能会引起数据质量问题。 (三)管理 因为管理层缺乏数据管理意识、缺乏数据规划、不重视数据、不重视数据质量等,都会导致数据质量问题。 二、数据质量维度框架
在麦吉利夫雷的《数据质量工程实践》一书中提出了改进数据质量的十步法,如下所示: 在十步法中,第三步是评估数据质量,具体需要通过数据质量维度进行测量。数据质量维度是数据的某个可观测的特性,类比于测量物理对象的维度(比如长度、宽度等)。数据质量维度提供了定义数据质量要求的一组词汇,通过这些维度定义可以评估初始数据质量和持续改进的成效。 数据质量维度在工作实践中有很多,如果需要基于”完全穷尽、相互独立“的原则罗列出素有维度属性,估计很少有人能够做到,一方面可能没有系统化思考过,另一方可能也区分不清楚比如完整性、规范性、一致性、唯一性、准确性、关联性等维度概念的差别及联系。 通过查阅相关资料,发现已经有人对数据质量维度已经进行了系统研究。以洛申的《数据质量改进实践指南》为基准,给出理想中的数据质量维度框架,基于该框架,可以更加清晰、全面的理解数据质量维度定义和度量方法,从而奠定数据质量管理工作的基础。 为了辅助理解,第五部分也附上了华为等其它相关数据质量维度框架的简要说明,大家可以据此进行拓展阅读。 该框架以”完全穷尽、相互独立“为原则,对数据质量维度进行层次结构的逻辑分类,一级分类为内在维度、上下文维度和定性维度: 内在维度:将那些仅与数值本身有关而与数据元或记录无关的测量方法称为内在维度,内在维度与数据值本身有关。 例如,指定温度的有效范围(如-10-50度)对数值来说是内在的,与场景无关。 内在维度包括二级分类,即准确性、可溯性、结构一致性和语义一致性。 上下文维度:测量评判的是一个数据元与其他数据元或从一条记录到其它记录的一致性或有效性。上下文维度依赖于系统和流程中作为业务规则执行的各类业务方针。 上下文维度括二级分类,即完整性、一致性、及时性、可访性、合理性及唯一性。 定性维度:在获取定量测量结果能力不足的情况下,需要引入另外一些维度,定性维度可以评价更高阶的监督,审查信息满足定义的期望指数和需求的程度。 三、数据质量维度规则 结合十大数据质量维度分类,系统梳理出了29个规则类型,每种规则类型可以根据规则的适用范围区分为单属性,跨属性、跨记录和跨实体四种,如下图所示: 规则类型一般包括类型名称、类型描述、度量指标及符合性阈值等属性来形成具体的稽核规则,举例说明: 以“值域约束类”为例,存在于准确性维度中,描述是“属性值必须满足已定义的枚举值的约束”,度量指标是“符合约束的记录/总记录”,符合性阈值可以定义为一个固定比例值,比如针对“性别”字段,枚举约束是“男,女”,度量指标是“字段的值属于“男”或“女”的记录/总记录数”,符合性阈值是“90%”。 四、数据质量维度详述 1、准确性 维度定义: 准确性是指数据值与确定的正确信息源的一致程度,然而实际情况下可能存在许多潜在的正确信息源。例如一个数据库,一个数据集或者某个人工录入的结果。所以操作复杂度较高,需要结合企业实际情况进行裁剪或适配。 规则类型: (1)值域约束类:属性值必须满足已定义的枚举值的约束,比如合同的合同主类型及子类型必须是合同类型基础数据中定义的枚举值。 (2)精度约束类:属性值的精度符合定义的精确度和细节说明。 (3)值的约束类:属性值必须支持为该属性值定义的可接受值,比如限定年龄必须在0-150岁之间。 (4)事实参照标准类:存在事实数据或者事实参考标准数据,与该事实或事实参考标准对比一致的约束。比如通信公司的信息必须与国家法人数据库中的信息保持一致。 2、可溯性 维度定义: 数据的可溯性对于企业是至关重要的,可塑性测量的一个特征是拥有识别任何新增或更新的数据来源的能力。 规则类型: 可溯源类:所有属性都应包括可识别的最初来源和日期。 3、结构一致性 维度定义: 在同一数据集或者在与相关联的数据模型中,相似的属性值的表示具有一致性。 规则类型: (1)格式规范类:属性必须符合企业规定的长度和类型标准。 (2)格式一致性类:相同的属性必须具有相同的数据类型、长度以及样式。 (3)属性文档化类:在元数据库中定义和描述的数据属性。 4、语义一致性 维度定义: 指的是一个数据模型中不同属性间定义,以及不同的企业数据集中命名相似的属性定义的一致性,它描述了相似数据对象共享一致名称与含义的程度。 规则类型: (1)属性定义类:所有的属性命名和定义已经文档标准化。 (2)属性名称符合类:属性名称符合标准程度。 (3)属性名称歧义类:不存在两个属性共用一个名称。 (4)语义一致性:命名相似的属性指的是同一个业务概念。 5、完整性 维度定义: 完整性用于度量哪些数据丢失了或者哪些数据不可用。 规则类型: (1)属性不可为空类:属性值不允许出现空值,比如员工工号不可为空。 (2)单表不可为空类:在本实体的一个或多个属性值满足某个条件时,属性值不允许出现空值。 (3)跨表不可为空类:在其它实体的一个或多个属性值满足某个条件时,属性值不允许出现空值。 6、一致性 维度定义: 一致性用于度量哪些数据的值在信息含义上是冲突的。 规则类型: (1)单表等值一致性类:某一属性与本实体其它属性计算值相等的约束,比如合同的RMB签约金额必须等于USD签约金额与汇率的乘积。 (2)单表逻辑一致性类:某一属性值与本实体其他属性满足逻辑关系约束(比如大于或小于、晚于或早于),比如合同关闭日期不能早于注册日期。 (3)外关联约束类:引用其他业务对象属性时,所维护的属性值必须在其他业务对象中存在的约束,比如合同的签约客户必须为客户主数据中定义的客户信息。 (4)跨表等值一致约束类:某一属性值与其他实体的一个或多个属性值的函数计算结果相等的约束,比如账单表的总金额与账单明细表的科目金额之和一致。 (5)跨表逻辑一致约束类:某一属性值满足其他实体的一个或多个属性值的函数关系的约束(大于或小于),比如客户表中客户的入网日期早于客户订购产品表中的产品订购日期。 7、及时性 维度定义: 指信息相对于真实实体而言的最新程度。 规则类型: (1)属性及时性约束类:属性必须在规定的时间周期内刷新,比如产品价格的刷新周期定于24小时。 (2)单表及时性约束类:在本实体的一个或多个属性值的满足某个条件时,属性值要在一个指定时间周期内刷新。 (3)跨表及时性约束类:在其它实体的一个或多个属性值的满足某个条件时,本实体的属性值要在一个指定时间周期内刷新。 8、可访性 维度定义: 指信息可访问性的时间期望指数,可访性可以用期望使用信息的时间与信息准备就绪的时间差进行测量。 规则类型: (1)可访问性类:可访问信息的时间与信息准备就绪的时间差。 (2)响应时间类:请求者从发出请求到接收到信息的时间差。 9、合理性 维度定义: 指对数据值一致性或合理性期望指数相关的综合评述。 规则类型: (1)通用合理性类:数据满足合理的期望指数,比如司机的法定年龄不小于18岁。 (2)时态合理性类:新值需与基于先前值的期望指数一致,即数据集的某个统计(合计、平均等)的值应该与历史数据集的统计值的差异在合理范围,比如当日新增用户数不应高于过去30天平均值的15%。 (3)协议合理性类:定义服务水平协议、安全协议及绩效相关的文档,应评测与协议的符合性。 10、唯一性 维度定义: 指对核心概念对象的唯一命名和表示,用于度量哪些数据是重复数据或者数据的哪些属性是重复的。 规则类型: 记录唯一类:记录不重复,存在可识别的业务主键进行唯一性判断,是对数据集内部是否存在相似或重复记录的约束规则。 定性维度的规则类型包括权威源符合度、与数据标准的符合度、可理解性等等。 针对每个数据质量维度都进行评估代价很大,企业需要根据自己的业务需求、优先级、可行性来选择最有意义的维度组合来进行测量。 五、其它数据质量维度框架 1、《数据质量工程实践》—麦吉利夫雷 2、洛申的《数据质量改进实践指南》
3、DAMA2
4、华为数据之道
5、[color=var(--domColor)]数据治理:工业企业[color=var(--domColor)]数字化转型之道
(以上内容摘录自微信公众平台架构师修炼之道,如有侵权请联系删除)
|