通透！详解主数据历史数据的清洗方法和工具算法数据源|数据清洗概述_家电

自从数字化转型大规模启动和推进以来，主数据管理和数据标准建设已经成为关键步骤。在常规的数字化转型的方法论中，主数据管理&数据标准建设要先于应用体系的建设。但是在实际建设过程中，应用系统的建设往往都先于专门的主数据管理&数据标准建设。

因此，在进行主数据治理、主数据治理平台建设过程中，不可避免要考虑历史数据的数据标准与新的数据标准的兼容的问题，同时也需要考虑历史数据清洗的问题。本文主要讨论主数据的历史数据清洗的策略和工具的应用。

什么是数据清洗

数据清洗是指发现并改正不完整、不正确、不准确和不一致的主数据，从而提高数据质量的过程，是发现并纠正数据文件中可识别错误的最后一道程序。由于数据一般从多个业务系统中抽取，包含不少历史数据，无法避免有的数据是错误数据、有的数据相互冲突，这些错误的、有冲突的数据显然是用户不想要的“脏数据”。数据清洗将按照一定的规则把这些零散、重复、不完整的数据清洗干净，得到准确、完整、一致、有效、唯一的新数据。

数据清洗主要检查数据一致性、处理无效值和缺失值等，数据清洗的目的是保证主数据的唯一性、准确性、完整性、一致性和有效性。

如果不能保证主数据的以上特征，会影响到各个应用系统的数据质量以及后续的分析和决策，对企业造成重大损失。例如：主数据的不一致会带来业务交易数据的不一致，在不同业务系统中的数据编码不一致使得系统之间的数据共享变得困难，阻碍企业整体运营情况的统一分析和规划等。

数据清洗的内容和方法

主数据清洗工作主要清洗两种类型的数据：缺失数据和噪声数据。

01缺失数据

数据缺失是数据库中经常出现的情况。缺失数据的处理方式，按照处理主体可分为人工处理法和自动处理法；按照处理方法可以分为直接忽略、填补缺省值和依据其他数据填补缺省值。

★根据处理主体分类-人工清洗

人工清洗方法，是指当一个记录的属性值有缺失时，查找原始的记录，或者请教专家手工填补所缺失的数值。这种方法的好处是当缺失数据比较少时，填补数值的准确度相对较高。但是，当缺失的数据比较多时，人工处理效率较低，且更容易出错，可行性差。

★根据处理主体分类-自动清洗

自动清洗方法，是指当一个记录的属性值有缺失时，通过已有的程序自动处理。这种方法的好处是当缺失数据的规模很大时，在效率上优于手工处理方法。但是自动清洗很大程度上依赖于处理缺失数据的程序，不太灵活，不如手工处理准确度高。

★根据处理方法分类-直接忽略

对于缺失数据，最直接的处理方法是忽略。直接忽略是指如果一个记录的属性值有缺失，则在数据分析中直接删除此记录，不予以考虑。具体删除的操作可以分为整例删除、变量删除和成对删除。

这种方法的好处是操作简单，但是当数据中遗漏的属性值比较多，而且分散在不同的记录中时，该方法的有效性就会大打折扣。一方面，它可能会造成现有数据的大量浪费；另一方面，补充数据中也会出现数据缺失，导致数据收集的规模缺乏控制。

★根据处理方法分类-填补缺省值

缺省值（DefaultValue）是指在计算机编程和数据处理领域中，当用户没有提供其他值时，系统或程序会自动使用的预先定义的值。

填补缺省值的方法是对直接忽略方法的改进，指针对影响不大的缺失数据统一填补一个确定的缺省值，以避免浪费大量数据。如，量化的属性可以采用一个极大的负值或正值作为缺省值，非量化的属性可以采用“无”作为缺省值。

这种方法的好处是避免了数据浪费而且操作简单。但是，当数据中缺失的属性值比较多时，容易使整个数据向缺省值的方向倾斜，为之后的数据处理增加麻烦。如，数据挖掘程序可能会将这些缺省值作为一个新的属性值进行计算，挖掘出大量无用的规律。

★根据处理方法分类-依据其他数据填补缺省值

进一步改进填补缺省值方法，根据已有数据科学合理地推算缺失的数据，就得到了依据其他数据填补缺省值的方法。这种方法通过对于缺失的数值进行纵向（缺失数值所在的属性）和横向（缺失数值所在记录的其他属性值）的数据分析，求出所缺失数值的可能值。

数据分析的方法有很多，如通过同属性的平均值填补缺失值，在信用评级的数据库中，对于工资的情况没有了解的客户，就可以采用有类别的平均值来填补此属性、类别所缺失的值。

当然，用平均值代替空缺值不一定是最好的办法，也可以利用回归分析、贝叶斯计算、决策树、人工神经网络等方法，用缺失的数据的纵向和横向信息技术计算出所缺失的数据最大可能值，并精心填补。

02噪声数据

噪声数据主要包括错误数据和重复数据。

错误数据一般是业务系统不够健全，在接收输入后没有进行判断便直接进入数据库造成的，如数值数据输成全角数字字符、字符串数据后面有一个回车标记、日期格式不正确、日期越界等。

这类数据也要分类，对于类似全角字符、数据前后有不可见字符的问题，只能通过写SQL语句的方式找出来，然后要求客户在业务系统修正之后再次抽取；日期格式不正确或者日期越界这类错误会导致ETL运行失败，需要去业务系统数据库中通过SQL挑出来，交给业务主管部门在要求的期限内修正，然后再进行抽取；对于重复数据，要将重复数据记录的所有数据导出来，让客户确认并整理。

与数据缺失一样，错误数据也是真实数据中经常出现的问题。错误数据分为内错误数据和外错误数据。其中，内错误数据是指在整体数据的统计分析分布内，但是数据值错误的数据；外数据错误是指在整体的统计分布之外的错误数据。如，数据中有两个属性，一个是姓名，一个是年龄。一个人的实际年龄是20岁，而数据库中错误记录是25岁，25岁属于人的正常年龄范围，这样的错误就是内数据错误；而如果一个实际年龄20岁，但数据库存储的记录为200岁，200岁已经超出了人的正常年龄范围，这样的错误就是外数据错误。

一般来讲，内数据错误很难辨识，更不容易改正；对于外数据错误，一般情况下只能根据整体数据分布来辨识，并进行适当的处理。外数据错误最主要的是噪声数据，指被测量变量的随机错误和偏差。

噪声数据处理方法主要有两种：一种方法称为分箱方法，直接平滑噪声。这种方法假设数据中有噪声，但是不去专门识别噪声，只是通过将含有平滑噪声的数据整体平滑，减小数据方差；另一种方法将人工智能和人机结合，先辨别噪声，然后再根据具体情况处理。这种方法根据噪声和正常数据在数据分布上不同特点，找出可能的噪声数据，再进一步的处理。

★分箱方法

分箱方法利用噪声周围的数值来平滑噪声，达到减少噪声干扰的目的。第一步，对已有的数值进行排序后，通过等深或等宽的规则分配到若干容器中；第二步，对每一个容器中的数据通过均值法、边界法等方法进行平滑处理。经过处理后的数据与原数据相比更加平滑，波动小，达到了减弱或消除噪声的目的。

★人工智能法

人工智能的方法，是指利用聚类、回归分析、贝叶斯计算、决策树、人工网络等人工智能的方法，对数据进行自动平滑处理。如，通过多变量线性回归法获得多个变量之间相互关系，达到变量之间相互预测修正的目的，从而平滑数据，去除其中的噪声。

★人机结合法

人机结合法是对人工智能方法的改进，它通过计算机检查和人工检查结合的方法来帮助发现异常数据。如，利用人工智能的各种方法帮助识别销售记录中的异常情况。由人工检查各个异常情况，并最终确定是否为噪声。这种检查方式与单纯的计算机检查相比准确率更高，与单纯的人工方式相比效率更高。

数据清洗的过程

数据清洗工作，需要认真组织和管理，并且应用专业的方法和工具，按一定的步骤完成，下面就是数据清洗的一般步骤。在实际执行中，可以根据实际情况进行调整。

步骤1定义和确定错误类型

数据分析是数据清洗的前提和基础。在进行数据清洗前，首先需要确定错误的类型，通过详尽的数据分析来检测出数据集中的错误或不一致的情况。除了手动检测数据或数据样本之外，还可以使用分析程序来获得关于数据属性的元数据，从而发现数据治理问题。

步骤2搜寻并识别错误示例

其次需要检测重复记录的算法。消除重复记录针对两个数据集或者一个合并后的数据集，检测出标识同一个现实实体的重复记录。检测重复记录的算法主要有：基本的字段匹配算法、递归的字段匹配算法等。

步骤3纠正所发现错误信息

在数据源上执行预先定义好的并且已经得到验证的清洗转换规则和工作流。当直接在源数据上进行清洗时，需要备份源数据，以防需要撤销上一次的清洗操作。清洗时根据“脏数据”存在形式不同，执行一系列的转换步骤，解决模式层和实力层的数据质量问题，为处理单数据源问题及其他数据源的合并做好准备。

一般在各个数据源上应该分别进行几种类型的转换，主要包括：

步骤4干净数据回流系统

当数据被清洗后，干净的数据应该替换数据源中的原料的“脏数据”，以提高原系统数据质量，避免将来再次抽取数据后进行重复的清洗工作。

专业高效的数据清洗过程是主数据管理的关键一步，得帆在主数据的清洗与治理方面拥有丰富的经验和专业能力，能助力客户快速解决主数据历史数据的“卡脖子”问题，为主数据管理奠定基础。

THE END

通透！详解主数据历史数据的清洗方法和工具算法数据源

通透！详解主数据历史数据的清洗方法和工具算法数据源

数据清洗是什么？为什么要进行数据清洗？数据清洗的常见方法有？

数据清洗的概念常见问题及实践（数据清洗）

数据清洗的概念常见问题及实践方法

数据清洗是什么，有哪些处理方法

数据清洗概述：数据质量的评价指标

数据清洗的详细解析及操作步骤概述

数据清洗研究综述20231108.docx

数据编辑使用指南

数据分析工作总结（精选9篇）

行业数据分析详解，一文搞懂哪些行业需要数据分析

云计算解读EventBridgeTransform，数据转换和处理的灵活能力干货技术博文

数据清洗夏日的向日葵

大数据清洗

数据清洗范文

大语言模型系列—预训练数据集及其清洗框架