数据治理(七):数据清洗算法

对于数据治理而言,数据清洗是其中最为重要的一个步骤。本文为大家介绍一下数据清洗的概念和方法。

大数据隐含着极大的价值,人们越来越希望从大量的数据中挖掘出有价值的信息供管理、决策和调控参考使用。一般情况下,数据挖掘总是假设数据是“干净”和一致的,然而现实中感知数据往往是冗余的、不完整的、错误的,且存在不一致性,这些现象的存在将会降低数据质量,严重影响数据挖掘的结果,从而影响决策的正确制定。

数据清洗是对数据库数据进行审查和校验,过滤不合规数据、删除重复数据、纠正错误数据、完成格式转换,并进行清洗前后的数据一致性检查,保证清洗结果集的质量。数据清洗需要处理的脏数据主要有错误数据、不完整数据和相似重复数据,根据脏数据的不同分类,数据清洗也可以分为属性错误清洗、不完整数据清洗以及相似重复记录清洗三大类。

一、属性错误清洗

数据库中很多数据违反最初定义的完整性约束,存在大量不一致的、有冲突的数据和噪声数据,我们应该识别出这些错误数据,然后进行错误清洗。属性错误检测的方法有基于定量的误差检测方法和基于定性的误差检测方法:

(1)定量的误差检测:一般在离群点检测的基础上采用统计方法来识别异常行为和误差,离群点检测是找出与其他观察结果偏离太多的点,Aggarwal将离群点检测方法又分为6种类型:极值分析、聚类模型、基于距离的模型、基于密度的模型、概率模型、信息理论模型。

(2)定性的误差检测:测一般依赖于描述性方法指定一个合法的数据实例的模式或约束,因此确定违反这些模式或者约束的就是错误数据。首先,错误类型是指要检测什么。定性误差检测技术可以根据捕捉到的错误类型来进行分类,目前,大量的工作都是使用完整性约束来捕获数据库应该遵守的数据质量规则,虽然重复值也违反了完整性约束,但是重复值的识别与清洗是数据清洗的一个核心;其次,自动化检测。根据人类的参与与否以及参与步骤来对定性误差检测技术进行分类,大部分的检测过程都是全自动化的,个别技术涉及到人类参与;最后,商业智能层是指在哪里检测。错误可以发生在数据治理的任何阶段,大部分的检测都是针对原始数据库的,但是有些错误只能在数据治理后获得更多的语义和业务逻辑才能检测出来。

不仅可以使用统计方法来对属性错误进行检测,使用一些商业工具也可以进行异常检测,如数据清洗工具以及数据审计工具等。

属性侧错清洗可以分为噪声数据清洗和不一致数据清洗:

(1)噪声数据的清洗也叫光滑噪声技术,主要方法有分箱以及回归等方法:分箱方法是通过周围邻近的值来光滑有序的数据值但是只是局部光滑,回归方法是使用回归函数拟合数据来光滑噪声;

(2)不一致数据的清洗在某些情况下可以参照其他材料使用人工进行修改,可以借助知识工程工具来找到违反限制的数据,例如:如果知道数据的函数依赖关系,通过函数关系修改属性值。但是大部分的不一致情况都需要进行数据变换,即定义一系列的变换纠正数据,也有很多商业工具提供数据变换的功能,例如数据迁移工具和ETL工具等,但是这些功能都是有限的。

二、不完整数据清洗

在实际情况中,企业的数据会存在很多缺失或不完整的数据,针对缺失的字段,我们有以下几种处理的方法:

(1)忽略元组:一般情况下,当此元组缺少多个属性值时常采用此方法,否则该方法不是很有效。当忽略了此条元组之后,元组内剩下的有值的属性也不能被采用,这些数据可能是有用的;

(3)全局变量填充缺失值:使用同一个常量来填充属性的缺失值。这种方法虽然使用起来较为简单,但是有时不可靠。例如,用统一的常量“NULL”来填写缺失值,在后续的数据挖掘中,可能会认为它们形成了一个有趣的概念;

(4)中心度量填充缺失值:使用属性的中心度量来填充缺失值。中心度量是指数据分布的“中间”值,例如均值或者中位数,数据对称分布使用均值、倾斜分布使用中位数;

(5)使用最可能的值填充:相当于数值预测的概念。回归分析是数值预测最常用的统计学方法,此外也可以使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定缺失值。

三、相似重复记录清洗

消除相似重复记录,首先应该识别数据集中两条或多条记录是否指向同一实体,这个过程也叫做实体对齐或实体匹配。文本相似度度量是实体对齐的最基础方法,大致分为4类:基于字符的、基于单词的、基于语义的和混合型方法。.随着知识表示学习在各个领域的发展,一些研究人员提出了基于表示学习的实体匹配算法,但均是以TransE系列模型为基础构建的。TransE首次提出基于翻译的方法,将关系解释为实体的低维向量之间的翻译操作,随之涌现出一些扩展的典型算法,如MTransE算法,JAPE算法,SEEA算法等。

实体对齐方法不仅应用于数据清洗过程中,对后续的数据集成以及数据挖掘也起到重要的作用。除此之外,也有很多重复检测的工具可以使用,如Febrl系统、TAILOR工具、WHIRL系统、BigMatch等,但是目前很多匹配算法只适用于英文不适合中文,中文数据清洗工具的开发有待进一步的研究。

相似重复记录的清洗一般都采用先排序再合并的思想,代表算法有优先队列算法、近邻排序算法、多趟近邻排序算法.优先队列算法比较复杂,先将表中所有记录进行排序后,排好的记录被优先队列进行顺序扫描并动态地将它们聚类,减少记录比较的次数,匹配效率得以提高,该算法还可以很好地适应数据规模的变化。

THE END
1.数据科学猫:数据预处理之数据清洗(DataCleansing)本文主要介绍了数据清洗在机器学习建模中的关键作用,包括数据清洗的定义、目标、方法和常见操作。数据清洗旨在提升数据质量,确保唯一性、完整性、一致性和有效性。文中详细阐述了如何检查和处理重复、缺失、异常和错误数据,以及使用Python、R、SQL等工具进行数据清洗的实践技巧。 https://blog.csdn.net/Orange_Spotty_Cat/article/details/81335640
2.数据清洗的一些梳理数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。国外有些学术机构会专门研究如何做数据清洗,相关的书籍也不少。 (美亚搜data cleaning的结果,可以看到这书还挺贵) 我将在这篇文章中,尝试非常浅层次的梳理https://zhuanlan.zhihu.com/p/20571505
3.深度学习数据清洗的目的mob649e81673fa5的技术博客深度学习的成功依赖于高质量的数据。在深度学习之前,数据清洗是一个至关重要的步骤。本文将详细介绍数据清洗的目的,流程及实现步骤,帮助初学者更好地理解这一过程。 数据清洗目的 数据清洗的主要目的是去除噪声和不一致的数据,确保输入到深度学习模型中的数据是准确和高效的。具体包括: https://blog.51cto.com/u_16175512/12697067
4.数据清洗工具:基于规则引擎的数据预处理什么是数据清洗工具? 数据清洗工具是一种用于数据预处理的软件工具,它能够通过规则引擎对数据进行清洗、筛选、转换以及修复,以准备好数据用于分析和建模。数据清洗工具通常能够识别和处理数据中的错误、缺失、重复、不一致等问题,提高数据的质量和可靠性。 数据清洗工具的作用 https://www.jianshu.com/p/ee189c157e5d
5.数据预处理与清洗洞察研究数据预处理与清洗-洞察研究  下载积分:1389 内容提示: 数据预处理与清洗 第一部分 数据预处理基本概念 2 第二部分 数据清洗技术概述 5 第三部分 缺失值处理策略 https://www.doc88.com/p-33371833889960.html
6.数据清洗是什么意思数据清洗是什么意思 数据清洗(学术名词) “数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。?2022 Baidu |由 百度智能云 提供计算服务 | 使用百度前必读 | 文库协议 | 网站地图 | 百度营销 https://wenku.baidu.com/view/47a10e02f31dc281e53a580216fc700abb68529a.html
7.什么是数据清洗?安装轴承前必须进行清洗,清洗时应注意什么? 安装轴承前必须进行清洗,清洗时应注意什么 数据清洗过程不需要提及。 做数据分析,需要对收集来的数据做哪些清洗() 清洗的目的是什么? 清洗的步骤是什么() 数据清洗的方法一般不包括() 呼叫中心数据清洗的主要作用是() 观星台上的数据清洗包括哪些步骤() 鼓风式清洗机的https://www.eepw.com/shiti/ru4wdjixlokx.html
8.什么是数据清洗?面对常见的数据清洗问题,有哪些解决方法?什么是数据清洗?面对常见的数据清洗问题,有哪些解决方法? 数字化时代,数据可以说是如同企业的血液。然而,不准确、不完整、不一致的数据却让企业的运营处处受阻。很多企业最初的出发点是好的,想要降本增效,结果呢,是降本增笑。企业怎么能从海量数据中找到准确的信息而避免耗费大量时间和精力?又怎么能避免数据混乱而https://www.fanruan.com/bw/doc/180930
9.什么是数据清洗?带你了解关于数据清洗的三大问题!什么是数据清洗?带你了解关于数据清洗的三大问题!知识百科?数栈君发表了文章 ? 0 个评论 ? 203 次浏览 ? 2023-12-06 09:48 在当今的信息时代,数据已经成为企业决策的重要依据。然而,原始数据往往存在许多问题,如缺失值、异常值、重复值等,这些问题会影响数据分析的准确性和可靠性。因此,数据清洗https://www.dtstack.com/bbs/topic/9157
10.数据清洗到底是什么?数据清洗的最佳实践数据清洗到底是什么?数据清洗的最佳实践 笔者在《数据治理:说起来容易,做起来难!》一文中,曾提到:数据治理不仅是一个苦活、累活,还是个受力不讨好,经常背锅,领导看不见价值的活。 数据治理需要对每个数据域、数据实体、数据条目、数据项进行梳理和标准化,甚至有时候需要人工逐条、逐字段的定义数据标准、核实数据https://www.bzx1688.com/g/544998.html
11.什么是数据科学中的数据清洗–PingCode数据清洗(Data Cleaning)是数据科学领域中的一项关键过程,它涉及从原始数据中移除不准确、不完整、无关或者格式错误的数据。数据清洗不仅保障了数据的准确性和可用性,它也是数据分析和模型构建的关键前提条件。一个详细的数据清洗步骤是识别并处理缺失值:缺失值会干扰数据分析和统计建模,不同的处理办法包括删除缺失值、https://docs.pingcode.com/ask/126873.html
12.数据清洗是指什么数据清洗是指对数据进行预处理和清理,以消除数据中的错误、缺失、异常值等问题的过程。数据清洗是数据分析和机器学习的重要前置步骤,其目的是提高数据的质量和可靠性,从而使得后续的数据分析和机器学习的结果更加准确和可靠。 数据清洗的步骤通常包括以下几个方面: https://www.ai-indeed.com/encyclopedia/4212.html
13.数据清洗是什么,有哪些处理方法数据清洗是什么,有哪些处理方法 平常有接触数据分析相关工作的小伙伴,对数据挖掘应该不会感到陌生,但你知道数据挖掘中的基础是什么吗?如今跟着小编一起来学习一下,数据挖掘中的基础——数据预处理的意义和概念。 一、数据预处理的意义 随着大数据时代的到来,数据一直在产生,但这些数据往往是巨大的、混乱的。如果直接用https://www.smartbi.com.cn/gn/ssew
14.数据分析中的数据清洗指什么数据清洗是指在进行数据分析前,对原始数据进行处理,去除数据集中的错误、缺失、重复、不一致等问题,以确保数据的质量和准确性。它直接影响到后续分析结果的准确性和可信度。 一、数据清洗的步骤 1.确定数据清洗的目标和方法 在进行数据清洗前,需要明确数据清洗的目标和方法。根据数据类型、数据来源、实际情况等,选择https://www.linkflowtech.com/news/1071
15.数据安全知识:数据整理与数据清理数据清理基础知识 在深入研究数据清理的复杂性之前,请了解它在确保数据的质量和可靠性方面发挥着至关重要的作用。此过程涉及识别错误和不一致之处,以提高数据的准确性和可用性。 什么是数据清洗? 数据清理,也称为数据清理,是为提高数据集的准确性和完整性而进行的细致过程。这一切都是为了发现可能会破坏您的分析模型https://www.360doc.cn/article/68899713_1118249272.html