数据治理(七):数据清洗算法

对于数据治理而言,数据清洗是其中最为重要的一个步骤。本文为大家介绍一下数据清洗的概念和方法。

大数据隐含着极大的价值,人们越来越希望从大量的数据中挖掘出有价值的信息供管理、决策和调控参考使用。一般情况下,数据挖掘总是假设数据是“干净”和一致的,然而现实中感知数据往往是冗余的、不完整的、错误的,且存在不一致性,这些现象的存在将会降低数据质量,严重影响数据挖掘的结果,从而影响决策的正确制定。

数据清洗是对数据库数据进行审查和校验,过滤不合规数据、删除重复数据、纠正错误数据、完成格式转换,并进行清洗前后的数据一致性检查,保证清洗结果集的质量。数据清洗需要处理的脏数据主要有错误数据、不完整数据和相似重复数据,根据脏数据的不同分类,数据清洗也可以分为属性错误清洗、不完整数据清洗以及相似重复记录清洗三大类。

一、属性错误清洗

数据库中很多数据违反最初定义的完整性约束,存在大量不一致的、有冲突的数据和噪声数据,我们应该识别出这些错误数据,然后进行错误清洗。属性错误检测的方法有基于定量的误差检测方法和基于定性的误差检测方法:

(1)定量的误差检测:一般在离群点检测的基础上采用统计方法来识别异常行为和误差,离群点检测是找出与其他观察结果偏离太多的点,Aggarwal将离群点检测方法又分为6种类型:极值分析、聚类模型、基于距离的模型、基于密度的模型、概率模型、信息理论模型。

(2)定性的误差检测:测一般依赖于描述性方法指定一个合法的数据实例的模式或约束,因此确定违反这些模式或者约束的就是错误数据。首先,错误类型是指要检测什么。定性误差检测技术可以根据捕捉到的错误类型来进行分类,目前,大量的工作都是使用完整性约束来捕获数据库应该遵守的数据质量规则,虽然重复值也违反了完整性约束,但是重复值的识别与清洗是数据清洗的一个核心;其次,自动化检测。根据人类的参与与否以及参与步骤来对定性误差检测技术进行分类,大部分的检测过程都是全自动化的,个别技术涉及到人类参与;最后,商业智能层是指在哪里检测。错误可以发生在数据治理的任何阶段,大部分的检测都是针对原始数据库的,但是有些错误只能在数据治理后获得更多的语义和业务逻辑才能检测出来。

不仅可以使用统计方法来对属性错误进行检测,使用一些商业工具也可以进行异常检测,如数据清洗工具以及数据审计工具等。

属性侧错清洗可以分为噪声数据清洗和不一致数据清洗:

(1)噪声数据的清洗也叫光滑噪声技术,主要方法有分箱以及回归等方法:分箱方法是通过周围邻近的值来光滑有序的数据值但是只是局部光滑,回归方法是使用回归函数拟合数据来光滑噪声;

(2)不一致数据的清洗在某些情况下可以参照其他材料使用人工进行修改,可以借助知识工程工具来找到违反限制的数据,例如:如果知道数据的函数依赖关系,通过函数关系修改属性值。但是大部分的不一致情况都需要进行数据变换,即定义一系列的变换纠正数据,也有很多商业工具提供数据变换的功能,例如数据迁移工具和ETL工具等,但是这些功能都是有限的。

二、不完整数据清洗

在实际情况中,企业的数据会存在很多缺失或不完整的数据,针对缺失的字段,我们有以下几种处理的方法:

(1)忽略元组:一般情况下,当此元组缺少多个属性值时常采用此方法,否则该方法不是很有效。当忽略了此条元组之后,元组内剩下的有值的属性也不能被采用,这些数据可能是有用的;

(3)全局变量填充缺失值:使用同一个常量来填充属性的缺失值。这种方法虽然使用起来较为简单,但是有时不可靠。例如,用统一的常量“NULL”来填写缺失值,在后续的数据挖掘中,可能会认为它们形成了一个有趣的概念;

(4)中心度量填充缺失值:使用属性的中心度量来填充缺失值。中心度量是指数据分布的“中间”值,例如均值或者中位数,数据对称分布使用均值、倾斜分布使用中位数;

(5)使用最可能的值填充:相当于数值预测的概念。回归分析是数值预测最常用的统计学方法,此外也可以使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定缺失值。

三、相似重复记录清洗

消除相似重复记录,首先应该识别数据集中两条或多条记录是否指向同一实体,这个过程也叫做实体对齐或实体匹配。文本相似度度量是实体对齐的最基础方法,大致分为4类:基于字符的、基于单词的、基于语义的和混合型方法。.随着知识表示学习在各个领域的发展,一些研究人员提出了基于表示学习的实体匹配算法,但均是以TransE系列模型为基础构建的。TransE首次提出基于翻译的方法,将关系解释为实体的低维向量之间的翻译操作,随之涌现出一些扩展的典型算法,如MTransE算法,JAPE算法,SEEA算法等。

实体对齐方法不仅应用于数据清洗过程中,对后续的数据集成以及数据挖掘也起到重要的作用。除此之外,也有很多重复检测的工具可以使用,如Febrl系统、TAILOR工具、WHIRL系统、BigMatch等,但是目前很多匹配算法只适用于英文不适合中文,中文数据清洗工具的开发有待进一步的研究。

相似重复记录的清洗一般都采用先排序再合并的思想,代表算法有优先队列算法、近邻排序算法、多趟近邻排序算法.优先队列算法比较复杂,先将表中所有记录进行排序后,排好的记录被优先队列进行顺序扫描并动态地将它们聚类,减少记录比较的次数,匹配效率得以提高,该算法还可以很好地适应数据规模的变化。

THE END
1.大数据数据清洗概述,一文可以简单理解大数据的数据清洗大数据数据清洗是指对大数据进行预处理,通过一系列的数据清洗操作,将原始数据中的错误、重复、不一致等问题进行修正和处理,以提高数据的质量和可用性。数据清洗是大数据分析的重要环节,对于保证数据分析结果的准确性和可信度具有重要作用。 数据清洗的过程包括数据预处理、数据去重、数据筛选、数据修正和数据标准化等步骤。https://blog.csdn.net/FC3379ZC3281/article/details/142452061
2.大数据清洗数据为王的时代,企业需要专业而易用的大数据清洗治理工具,保障数据质量的准确性、一致性、及时性和完整性,支撑业务分析人员实施精准的数据分析、挖掘建模和微型应用开发,大幅提高企业的管理水平、决策效率和盈利能力。 技术优势: 大数据清洗治理工具是为提升数据质量而设计的一款以大数据平台的计算框架为基础的专业且易用http://en.bigdataway.cn/solution/data_cleaning/
3.大数据清洗技术应用数据清洗华为云帮助中心为你分享云计算行业信息,包含产品介绍、用户指南、开发指南、最佳实践和常见问题等文档,方便快速查找定位问题与能力成长,并提供相关资料和解决方案。本页面关键词:大数据清洗技术应用。https://support.huaweicloud.com/topic/1202812-1-D
4.大数据清洗的方法数据清洗的基本流程星云联动大数据清洗的方法及流程 数据清洗简单概述就是对企业在运行经营过程中,产生的纷繁复杂的数据进行抽取、转换、加载三个部分。具体细化流程则分为分析数据、缺失值处理、异常值处理、去重处理、噪音数据处理几部分,以下我们将数据清洗分为两部分进行介绍,既数据清洗的方法、数据清洗基本流程。https://www.istarscloud.com/?p=1850
5.JAVA大数据数据清洗Hadoop是一个开源框架,提供了分布式存储和分布式计算的能力。它可以高效地处理大规模数据集,并通过分布式计算的方式进行数据清洗和分析。 2. Spark: Spark是一个快速、通用的大数据处理引擎,具有内存计算能力和容错机制。它可以与JAVA语言无缝集成,提供了丰富的API,方便进行数据清洗和分析操作。 http://chatgpt.cmpy.cn/article/5223935.html
6.大数据中的数据清洗理想股票技术论坛大数据中的数据清洗是指对海量数据进行筛选、清理和加工的过程。通过使用各种技术和方法,包括数据去重、缺失值处理、异常值检测等,确保数据的准确性、完整性和一致性,为后续的数据分析和挖掘提供可靠的基础。了解数据清洗的流程和掌握有效的数据清洗方法对于从大数据中获https://www.55188.com/tag-3941298.html
7.数据清洗(普通高等教育数据科学与大数据技术专业教材)(豆瓣)《数据清洗(普通高等教育数据科学与大数据技术专业教材)》编写目的是向读者介绍大数据清洗的基本概念和相应的技术应用,共分8章:数据清洗简介、数据清洗中的理论基础、文件格式及其转换、Excel数据清洗、Kettle数据清洗、Kettle与数据仓库、Python数据清洗、数据清洗综合实训。 《数据清洗(普通高等教育数据科学与大数据技术专业https://book.douban.com/subject/35820908/
8.《大数据技术入门》课件第5章数据清洗.ppt2)数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,它研究和解决从数据库中获取信息的问题,并为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 3)ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。 思政案例 大数据清洗的质量规范 数据缺失值的处理方法 (1)删除缺失值 (2)https://m.book118.com/html/2022/0821/7145130056004155.shtm
9.数据清洗(精选5篇)首先,现有的数据清洗算法的效率并不能满足大数据的需求。并行计算是大数据算法的一个常用手段。然而,除了少数实体识别的算法[2-3]外,几乎没有其他的并行数据清洗算法获得提出。具有多种数据质量问题的大数据清洗工作的整体效率往往也都不高。 其次,现有的数据清洗系统[4-7]集中于数据质量的某一方面。NADEEF[8]支持https://www.1mishu.com/haowen/109815.html
10.大数据平台数据清洗数据清洗是指对采集到的原始数据进行处理,包括去除重复数据、填充缺失值、纠正错误等,以提高数据的质量和可用性。在搭建大数据平台时,还需要考虑数据安全和隐私保护。大数据平台涉及的数据量庞大搭建大数据平台是指通过构建一个集成的系统,能够高效地存储、处理和分析大规模数据的技术架构。大数据平台的搭建可以帮助企业或https://www.transwarp.cn/keyword-detail/53116-1
11.基于科技创新大数据公共平台的数据清洗研究3张婷婷;李伟;郝晓艳;基于R软件对医学研究中多选题的数据清洗与分析[J];东南大学学报(医学版);2022年06期 4吴运驰;马庆;宋波;张永峰;采油工程领域的数据清洗方法研究[J];电脑知识与技术;2023年03期 5陈旭;多源异构环境下基于层次约简分类的大数据清洗方法研究[J];电脑与电信;2023年Z1期 https://cdmd.cnki.com.cn/Article/CDMD-10107-1018780697.htm
12.数据清洗(精选6篇)大数据时代,无论是做推广营销,还是数据分析等服务,自然都离不开大数据清洗空号,做手机号和固话前端处理,这样的好处在于: 可清洗中国移动、中国联通、中国电信的所有手机或固话号。该项目可让公司准确、系统而灵活地进行空号检测,剔除无效号码,确保定期清理号码库的实现,极大保持数据库号码的鲜活度。 https://www.360wenmi.com/f/file1bnbuque.html
13.什么是大数据分析的数据清洗?大数据分析过程中的数据清洗步骤是指对原始数据进行预处理的一系列操作,以确保数据质量和准确性。数据清洗步骤通常包括以下几个方面:1. 数据清洗:对原始数据进行清洗和处理,包括删除重复数据、处理缺失值、纠正错误等。2. 数据转换:将原始数据从一种格式转换为另一种格式,以便后续分析。3. 数据归一化https://zhidao.baidu.com/question/1122358299170744939.html
14.大数据分析的关键技术有哪些大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的数据处理技术。大数据价值的完整体现需要多种技术的协同。大数据关键技术涵盖数据存储、处理、应用等多方面的技术。 1、大数据清洗与融合技术 大数据清洗融合技术旨在将各种不同形态、来源、格式、特点的https://www.linkflowtech.com/news/2065
15.大数据要“落地”,还缺些什么?投资界“大数据”是在2013年被用滥了的词汇,但实际上,由于数据量缺失、大数据清洗和分析能力不足,以及数据可视化瓶颈等问题,“大数据”一直未网站阐述了他对于大数据接下来发展的认识,他认为更快地数据处理、更可靠地数据质量,以及给更加细分的应用市场,是大数据2.0时代的重要特征。 https://m.pedaily.cn/news/358788
16.大数据进行数据清洗的基本流程详细讲解数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。 1.数据分析 数据分析是数据清洗的前提和基础,通过人工检测或者计算机分析程序的方式对原始数据源的数据进行检测分析,从而得出原始数据源中存在的数据质量问题。 https://www.jianshu.com/p/33ad3063c7ce
17.《数据清洗(大数据技术与应用丛书)》价格目录书评正版数据清洗是大数据预处理的关键环节。面对错综复杂的数据,传统的清洗“脏”数据工作单调且异常辛苦,如果能利用正确的工具和方法,可以让数据清洗工作变得事半功倍。该书讲解数据清洗的理论知识和实际应用,全书共8章:第1章主要带领大家简单认识数据清洗;第2章主要讲解ETL技术相关的知识;第3章讲解Kettle工具的基本使用;第http://m.bookschina.com/9034676.htm
18.建大数据交易中心四川欲后来居上制定通用标准提供大数据清洗服务 作为先行者,贵阳大数据交易所上线一年,交易额突破7000万元,但也暴露出供需矛盾——买数据的人多,卖数据的人少。究其原因,包括很多政府部门在内的机构和企业,虽然掌握大量数据,也希望将其变现,但缺乏将大数据转化为商品的能力。 https://www.sc.gov.cn/10462/10464/10797/2016/6/1/10382696.shtml