十步法原则解决数据质量问题腾讯云开发者社区

数据的一组固有属性满足数据消费者要求的程度。

1)数据固有属性

真实性:即数据是客观世界的真实反映

及时性:即数据是随着变化及时更新的

2)高质量数据满足要求(消费者角度)

可得的,当数据消费者需要时能够获取到;

及时的,当需要时,数据获得且是及时更新的;

完整的,数据是完整没有遗漏的;

可理解的,数据是可理解和解释的;

正确的,数据是现实世界的真实反映。

1.2数据质量管理

数据质量管理,是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

二、评估维度

任何改善都是建立在评估的基础上,知道问题在哪才能实施改进。通常数据质量评估和管理评估需通过以下几个维度衡量。常见的以下维度:

1)完整性

完整性,是指数据信息是否完整,是否存在缺失情况。数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。记录的完整性,一般使用统计的记录数和唯一值个数。完整性的另一方面,记录中某个字段的数据缺失,可使用统计信息中的NULL的个数进行审核。一般空值的占比基本恒定,同样可以使用统计的空值个数来计算空值占比,如果空值的占比明显增大,很可能这个字段的记录出现了问题,信息出现缺失。总而言之,完整性可用记录数、均值、唯一值、空值占比等指标来衡量。

2)规范性

规范性,是指记录是否符合规范,是否按照规定的格式存储(例如标准编码规则)。数据规范性审核是数据质量审核中比较重要也是比较复杂的一块。规范性检验主要是检验数据和数据定义是否一致,因此可以通过合规记录的比率来衡量。比如取值范围是枚举集合的数据,其实际值超出范围之外的数据占比,比如存在特定编码规则的属性值不符合其编码规则的记录占比。

3)一致性

一致性,是指数据是否符合逻辑,数据内单项或多项数据间存在逻辑关系。一致性检验,存在逻辑关系的属性之间的校验,比如属性A取某定值时,属性B的值应该在某个特定的数据范围内,都可以通过合规率来衡量。

4)准确性

数据的准确性可能存在于个别记录,也可能存在于整个数据集。如果整个数据集的某个字段的数据存在错误,这种错误很容易发现,利用平均数和中位数也可以发现这类问题。当数据集中存在个别的异常值时,可使用最大值和最小值的统计量去审核,或者使用箱线图也可以让异常一目了然。

5)时效性

6)唯一性

唯一性,用于度量哪些数据是重复数据或者数据的哪些属性是重复的。即对存在于系统内或系统间的特定字段、记录或数据集意外重复的测量标准。

7)合理性

合理性,是从业务逻辑角度判断数据是否正确。评估方面可参照规范性、一致性做法。

8)冗余性

冗余性,是指多层次数据中是否存在不必要的数据冗余。

9)获取性

获取性,是指数据是否易于获取、易于理解和易于使用。

三、影响因素

1)信息因素

产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质(如:数据源规格不统一)得不到保证和变化频度不恰当等。

2)技术因素

主要是指由于具体数据处理的各技术环节的异常造成的数据质量问题。数据质量问题的产生环节主要包括数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等方面的内容。

3)流程因素

4)管理因素

是指由于人员素质及管理机制方面的原因造成的数据质量问题。如人员培训、人员管理、培训或者奖惩措施不当导致的管理缺失或者管理缺陷。

四、解决质量问题方法

可以遵从下面的十步法原则(此部分摘自御数坊公开材料)。

4.1定义业务需求与方法

4.2分析信息环境

4.3评估数据质量

4.4评估业务影响

4.5确定根本原因

在纠正数据问题之前要先确定其根本原因,产生问题的根源有很多。不过,有些问题的发生仅是表象,并不一定是导致错误数据的根本原因,所以在分析的过程中,要不断的去追踪数据进行问题定位,确定问题最早出现的根本原因;或者多问自己几遍“WHY”以弄清楚问题的根本原因,进而使问题得到有效的解决,达到治标又治本的效果。

4.6制定改进方案

通过前面几步详细的问题分析及原因确定,在这一步则可以有针对性的制定出合理的数据质量改进方案,包括对已知数据问题的改进建议及如何预防未来类似错误数据的发生。

4.7预防未来数据错误

根据解决方案的设计,预防未来错误数据的发生。

4.8纠正当前数据错误

根据解决方案的设计,解决现有数据问题。这一步更多是”脏活累活”,但对于最终质量目标的达成至关重要。

4.9实施控制监控

实施持续的监测,确定是否已经达到预期效果。

4.10沟通行动和结果

对结果和项目进展情况沟通,保证整体项目的持续推进。

五、数据质量产品设计

5.1数据产品价值

完整检核标准梳理方法及指标规则模板。

自动化的检核处理及问题通知机制,达到无人值守。

提供全面的数据分析机制,加速问题解决。

规范的问题管理流程及制度,精确管理问题每个阶段。

完善的质量问题解决共享机制,实现数据治理的闭环管理。

5.2处理问题流程

确定规则:数据质量指标

发现问题:数据质量检核

提出问题:质量问题告警

解决问题:质量问题分析

归纳问题:问题管理流程

5.3主要功能模块

1)质量评估

提供全方位数据质量评估能力,如数据的重复性、关联性、正确性、完全性、一致性、合规性等,对数据进行体检进而识别和理解数据质量问题。有评价体系作为参照,需要进行数据的采集、分析和监控,为数据质量提供全面可靠的信息。在数据流转环节的关键点上设置采集点,根据系统对数据质量的要求,配置相应的采集规则,通过在采集点处进行质量数据采集并进行统计分析,就可以得到采集点处的数据分析报告。

2)检核执行

提供配置化的度量规则和检核方法生成能力,提供检核脚本的定时调度执行和第三方调度工具的调度执行功能。

3)质量监控

系统提供报警机制,对检核规则或方法进行阀值设置,对超出阀值的规则进行不同级别的告警和通知。

4)问题管理

对数据问题进行流程处理支持,规范问题处理机制和步骤,强化问题认证,提升数据质量。通过质量评价体系和质量数据采集系统,可以发现问题,之后还需要对发现的问题及时作出反应,追溯问题原因和形成机制,根据问题种类采取相应的改进措施,并持续跟踪验证改进之后的数据质量提升效果,形成正反馈,达到数据质量持续改良的效果。

在源头建立数据标准或接入标准,规范数据定义,在数据流转过程中建立监控数据转换质量的流程和体系,尽量做到在哪发现问题就在哪解决问题,不把问题数据带到后端。

5)质量报告

系统提供了丰富的API可进行定制化数据质量包括开发,另外系统内置了常用质量报告。

6)质量分析

提供多种问题分析能力,包括血统分析,影响分析,全链分析,定位问题产生的根源。

THE END
1.收到产品质量不合格报告后,该怎么处理呢?为做好工业产品质量的监督管理工作,各级市场监督管理局每年会依法组织对在中华人民共和国境内生产、销售的工业产品开展监督抽查,即对产品进行抽样、检验并处理。那么,当企业收到产品质量监督抽查不合格报告,该怎么做呢? 需要支付抽检费用吗? 可以对不合格报告的内https://mp.weixin.qq.com/s?__biz=MzI2NzY2MDQ3Nw==&mid=2247516451&idx=2&sn=94d52532d704b9196e030421ab24e05a&chksm=eb62eb136118f7dc591835b475064087d1d2bf6c9eb8bc8f56cf538b6778b8e9f1d100ec11e9&scene=27
2.产品有质量问题如何处理1、修理。产品虽然存在质量问题,但经过修理即可符合质量标准的,消费者可以要求销售者进行修理。2、更换。产品存在质量问题,但通过修理仍不能符合质量标准的,可以要求更换。3、退货。如果存在产品质量问题严重,难以修复,或者由于修理、更换时间的延误,消费者已不再需要该产品,有权要求退掉产品。4、赔偿损失。产品因质量https://v.66law.cn/wenda/297263.aspx
3.三步走解决生产过程出现的质量异常问题!不良品对质量异常产品,就需要根据实际原因,做好相应的处理。那造成质量异常一般都有哪些原因,又该如何处理呢?对质量异常的原因,主要可以从五个方面进行分析处理, 1、工艺文件问题。 首先要确认生产工艺文件是否正确,一般产品质量异常是工艺文件出现问题的可能性很小,它是一个标准性的参考文件,一旦有问题,那就是非常大的问https://www.163.com/dy/article/JHJDDRKJ0514EAHV.html
4.拼多多售后问题如何处理?有哪些解决方式?有哪些解决方式? 【导读】 今天我来大家讲一下售后解决的一些方法,因为经常会有同学遇到各种各样的售后问题,问我该怎么办?具体分析一下,遇到某些售后问题时,应该如何处理。 一、待成团状态,客户如果申请退款的话,这种情况下商家是没有权限说取消客户的订单的,需要和顾客说明情况,建议他联系平台客服帮忙处理,就可以https://www.mmker.cn/article/13227.html
5.金三银四,数据产品经理面试问题合集(实用高频)二、用户画像&CDP数据产品经理 1.用户画像标签体系建设和管理的方法? 考察点:用户画像标签分类,标签体系管理方法和流程 2.怎样保证标签质量准确可用? 考察点:用户画像标签质量问题处理策略 3.CDP产品作用是什么?一个典型的CDP产品包含哪些功能模块,分别解决什么问题? https://blog.itpub.net/70028087/viewspace-2943016/
6.市场监管局化妆品监督管理科百问百答(2)产品质量安全问题的决策及有关文件的签发; (3)审核化妆品注册、备案资料; (4)委托方采购、提供物料的,物料供应商、物料放行的审核管理; (5)产品的上市放行; (6)受托生产企业遴选和生产活动的监督管理; (7)化妆品不良反应监测管理。 12.申请进出口化妆品标签审核需提供哪些资料? https://www.zjk.gov.cn/content/bwbd/197900.html
7.产品质量问题应向哪里投诉法院调解实际上是以诉讼途径解决纠纷的。行政调解是指行政机关主持的调解。《产品质量法》第十二条规定,用户、消费者有权就产品质量问题“向产品质量监督管理部门、工商行政管理部门及有关部门申诉,有关部门应当负责处理”。此条规定中的“有关部门应当负责处理”,就包括由有关行政部门通过行政调解解决产品质量纠纷。https://www.lawtime.cn/zs_77349/
8.售后服务方案实用15篇(1)由售后专门人员每月对《电话服务记录》,《客户产品质量处理意见表》,《产品质量处理单》,《售后信息反馈意见表》,《客户服务处理单》,故障视频,照片,实物,电子文档等进行整理,并提客户服务部专门人员审阅。 (2)对于本月、本季、本年度连续出现的问题进行层层重点预警分析出现此类问题的原因。 https://www.wenshubang.com/fangan/3784650.html
9.2013年“三下乡”活动全体队员进行公交车文明礼仪宣讲,就现在的公交车上的让座、卫生等问题对市民进行讲解。并有部分队员打扫公交车,分发公交车文明传单部分。部分队员协助义工大队帮助健康快车的病人。晚上整理当天的照片、视频及编写当天的新闻。 7月16号 部分队员做关于住房等民生问题的调研,联系培智中心,在人民医院帮助病人做各项检查。晚https://www.htu.edu.cn/math/2013/0924/c1386a22890/page.htm
10.检验检测11.容量瓶的校正方法? 称量一定容积的水,然后根据该温度时水的密度,将水的质量换算为容积。 12.使用容量瓶注意事项有哪些? (1)在精密要求高的分析工作中,容量瓶不允许放在烘箱中烘干或加热; (2)不要用容量瓶长期存放配好的溶液; (3)容量瓶长期不用时,应该洗净,把塞子用纸垫上,以防时间久后,塞子打不开。http://www.aqsc.agri.cn/jyjc/202307/t20230711_427321.htm