数据清洗概念,方法及流程等等要点初探腾讯云开发者社区

数据清洗方式主要分为手动清洗,全机清洗,人机同步清洗和人机异步清洗四种类型。

(1)手动清洗:对较大的数据集来说,因为人工的限制,对数据清洗的准确性和速率会有所下降,所以,在公司业务体系中较小的数据集上通常会使用这种清洗方式。优点是准确率相对较高,缺点是执行速度较慢。

(2)全机清洗:依据具体清洗方案,编写清洗程序,自动清洗数据。优点是清洗自动化,把人解脱出来,缺点是实现过程复杂,后期维护困难。

(3)人机同步清洗:对于某些特殊的清洗,只能通过数据清洗程序才能实现,设计人机交互的界面,采取人工和机器辅助的方式,当清洗程序无法处理数据时,将通过人工干预等方式进行处理。优点是降低编写程序复杂度,减少大量人工操作,缺点是需人工实时参与。

(4)人机异步清洗:在对数据进行清洗的过程中,当遇到程序不能处理的问题时,不需人工直接参与,只需将异常情况记录下来生成相应的报告,然后继续进行清洗工作,人工则只需按照报告在后期进行相应的处理便可。优点是节约人力,提高清洗效果,是一种可行的清洗方式。

一般情况下,需要进行清洗的数据包括下列几种数据类型。

当前有很多方法用于缺失值清洗,可以分为两类:

(a)忽略不完整数据。直接通过删除属性或实例,忽略不完整的数据。在数据集规模不大、不完整数据较少的情况下,常常利用该方法来实现数据清洗。

该方法因为执行效率高,因此经常作为缺省方法,但缺点也相当明显。如果不完整数据集较大,一旦删除了若干记录之后,因为剩余的数据集规模较小,使得模型的构建不具备普适性和代表性,无法让人信赖,可靠度大大降低。另外,因为删除不完整数据带来的数据集偏差也使得数据挖掘的分类、聚类模型产生严重倾斜,进而影响最终的挖掘结果,产生重大决策性误导。

(b)基于填充技术的缺失值插补算法。上一种忽略法很有可能将潜在的有价值信息也一并删除。因此更多的时候选择填充不完整的数据。为了填充缺失值,用最接近缺失值的值来替代它,保证可挖掘数据的数量和质量。填充方法保留了潜在的有用数据,和删除属性或记录相比,保留了更多数据样本,不易于产生数据分析偏差,由此构建的模型更可靠,更有说服力。目前常用的缺失值填充算法大体分为两大类,一类是统计学方法,另一类是分类、聚类方法。

错误数据出现的原因主要是不够完善的业务体系,没有判别所接收到的输入数据是否与业务准则相符,直接将其写入到后台数据库中。先对错误数据进行分类,而后经过SQL语句寻找出来,根据客户请求在业务体系中修改,最终再对其进行抽取。数据类型不一致或日期格式不正确等问题同样会导致数据清洗失败,对于此类型的错误问题,需要在业务系统的数据库中通过SQL语句将其找出,交给业务部门进行修改,然后再对其进行抽取。

噪声数据处理(noisetreatment)。数据挖掘前,往往假设数据集不存在任何数据干扰。然而,实际应用中却因为各种原因,在数据收集、整理的过程中,产生大量的噪声数据,即“离群点”。因为噪声数据不在合理的数据域内,所以分析、挖掘过程中输入和输出数据的质量难以保证,容易造成后续的挖掘结果不准确、不可靠,如图3所示。常用的消除噪声数据的方法分为两种。

一种叫噪声平滑方法(datapolishing),常用的方法是分箱法。将预处理数据分布到不同的箱中,通过参考周围实例平滑噪声数据,包括等宽分箱和等深分箱两大类。具体的分箱技术包括:按箱平均值平滑,即求取箱中的所有值的平均值,然后使用均值替代箱中所有数据;按中位数平滑,和上一种方法类似,采用中位数进行平滑;按设定的箱边界平滑,定义箱边界是箱中的最大和最小值。用最近的箱边界值替换每一个值。另一种是噪声过滤(datafilters),利用聚类方法对离群点进行分析、过滤。在训练集中明确并去除噪声实例。噪声过滤的常用算法包括IPF算法(iterativepartitioningfilter)、EF算法(ensemblefilter)。

数据清洗不会在短期内实现,需要不断地重复进行,在这个过程当中,只有发现问题并不断地解决问题,才可以确保数据清洗的顺利进行。是否应该对数据进行过滤或修改,一般要求客户对其进行确认,然后依据客户的要求对数据进行清洗操作。值得一提的是,需要反复验证每个过滤规则,以防止过滤掉有用的数据。

为了提高数据挖掘的速度和精度,有必要去除数据集合中的重复记录。如果有两个及以上的实例表示的是同一实体,那么即为重复记录。为了发现重复实例,通常的做法是将每一个实例都与其他实例进行对比,找出与之相同的实例。对于实例中的数值型属性,可以采用统计学的方法来检测,根据不同的数值型属性的均值和标准方差值,设置不同属性的置信区间来识别异常属性对应的记录,识别出数据集合中的重复记录,并加以消除。相似度计算是重复数据清洗过程中的常用方法,通过计算记录的各属性的相似度,再考虑每个属性的不同权重值,加权平均后得到记录的相似度。如果两条记录相似度超过了某一阈值,则认为两条记录是匹配的,否则,认为这两条记录指向不同实体。

另一种相似度计算算法基于基本近邻排序算法。核心思想是为了减少记录的比较次数,在按关键字排序后的数据集上移动一个大小固定的窗口,通过检测窗口内的记录来判定它们是否相似,从而确定重复记录。

通常情况下,数据清洗的流程包括下列五个步骤。

(1)数据分析:数据分析是数据清洗的条件和基础。经过分析,可以检测到数据集中的错误或不一致。除手动对数据分析,也可利用程序算法获得数据属性元数据,目的是发现数据集中的数据质量问题。

(2)定义数据清洗转换规则:依据所分析的数据结果,定义数据清洗转换规则。根据数据源的数量和数据源中“脏数据”的数量,执行大量的数据清洗和转换操作。

(3)验证:验证数据清洗转换规则的正确性,并对其效率进行评估。从数据源中提取数据样本,在所提取的数据样本中执行数据清洗转换规则,目的是对其进行验证。当情况不符合清洗的要求时,要改进清洗转换规则或调整系统参数。在清洗数据的过程当中,往往要重复迭代分析和验证数据的质量,直到获得相对理想的数据清洗转换规则和工作流,并且其质量对数据清洗的效率和质量起决定作用。

(4)清洗数据的错误:在数据源上执行经由验证的清洗转换规则和工作流。假如直接在数据源上清洗数据,则必须备份数据源中的数据,以防止清洗数据的过程当中出现错误,从而将清洗操作进行撤销。

(5)干净数据回流:数据清洗结束后,用干净的数据替换原始数据中的“脏数据”,以提高数据源的数据质量,避免再次清洗时进行重复的工作任务。

数据存储与管理:数据仓库的中心焦点就是数据存储与管理,与其它传统数据库的差别在于组织管理方式,也决定了数据仓库的表现形式,将各业务系统的数据进行抽取、清洗、集成,依照主题进行组织构造。按照数据的覆盖范围,可以将数据仓库分为企业级数据仓库以及部门级数据仓库。

OLAP服务器:在线联机分析处理(OLAP)是一种可帮助分析师迅速交互地察看数据各个方面的软件技术,从而能更加深切地理解数据。依据多维模型,必要剖析的数据能够获得相应地整合以及组织,从而达到多角度、多层次趋势的分析和挖掘。

前端工具:各类数据分析工具,数据挖掘工具,报表工具和查询工具都属于前端工具范畴。在数据仓库中利用数据挖掘工具,在OLAP服务器与报表工具中使用数据分析工具。

当从多个数据源对数据进行提取的时候,由于数据源表结构布局设计的不同,从多个数据源中将数据迁移到数据仓库的过程当中,就会出现一些冗余数据或错误信息。假如不及时清洗这些数据,所生成的“脏数据”就会扭曲已经获得的数据信息,进而对已有的数据仓库系统造成恶劣的影响,所以,为了使数据仓库系统能够正常运行,数据仓库中的数据更准确,必须消除冗余数据错误信息。

通常情况下,数据清洗就是简化数据库的过程,消除数据库中重复的数据。

数据清洗算法一般包括下列内容。

对于空值的清洗,当数据量较小的时候,可以采用人工填写空值的方法;

假如数据量较大,使用全局变量或利用属性的平均值、中间值、最大值、最小值或更为繁杂的统计函数值来填充空值,从而达到空值的清洗。

某些交易记录的数据可能存在不一致,可以使用其他工具手动更正,也可以利用知识工具对违反约束的数据进行检测。另外,数据集成可能会产生不一致的数据,应针对具体问题进行具体分析,以实现对不一致数据的清洗。

现有的重复记录删除的基本思想是“排序后合并”。数据库中的数据记录最初按照提取的关键字排序数据记录,经过与相邻记录进行比较来检查是否有重复记录存在。通常用于删除重复记录的算法:优先队列算法,基本近邻排序算法和多趟近邻排序算法。

随着信息化的不断深入,企业几乎每天都会产生大批量的数据,累积的数据必定会对企业的发展产生巨大的影响。为了促使庞大的数据集可以更好地发挥作用,就必须对数据质量进行提高,研究行之有效的数据清洗策略。

大数据分析不能唯结果论,避免因唯结果论而产生的问题,数据清洗应有相应的方法论调整。首先要树立以人为本的价值理念。对企业来说,在维护人的权利与维护企业利润方面,应首先维护人的权利。企业利用大数据,对数据进行清洗,当然是为了利润,但利润的获取应建立在人对技术的利用基础上,换句话说,大数据利用的根本目的,不只是为了企业获取利润,还在于提高社会效益。只有建立在人通过技术利用提高舒适感和建立在整个社会中的位置上,大数据技术才是有意义的。

可以说,企业行为时时刻刻面临着维护人的权利与追求企业利润之间的选择。对于维护人的权利,往往是隐性和长远的;而维护利润,则是显性和即时的。数据清洗以人为本,考验企业发展战略及方法选择。

单一因素考虑进行数据清洗,有利于节省成本,提高数据利用效率。这是单一目标导向的结果。然而这种效率提高是不长远、不稳定的,随着技术发展越来越趋向满足人的需求,保障人的利益,数据清洗会变得越来越没有效率。

二是结果的社会效应分析。数据清洗如果只针对结果,则是有利于结果的数据清洗都是必要的。而往往这种结果只是公司的短期需要,或者公司特定的需要。从整个社会来看,这种结果是不适宜的,或者有违社会公共价值,或者不利于社会长远发展。显然,只针对这种结果的数据清洗会带来诸多问题。要避免问题的产生,对数据利用结果的社会效应分析必不可少。数据利用结果是数据利用的结束,但却是社会效应的开始,越是详尽的数据利用结果社会效应分析,越有利于数据利用效率,越有利于维护社会在数据利用过程中的公平正义。

THE END
1.大数据进行数据清洗的基本流程数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。下面通过一张图描述数据清洗的基本流程,具体如图所示。 接下来针对图中数据清洗的基本流程进行详细讲解。 1.数据分析 https://www.jianshu.com/p/1bc63211e025
2.数据分析基本流程有哪些数据分析主要有八个流程:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、将数据展现和输出;7、洞察结论;8、报告撰写。 1、目标的确定 只有弄清分析的目的是什么?才能准确定位分析因子,提出有价值的问题,提供清晰的思路。 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来https://www.linkflowtech.com/news/614
3.数据清洗的基本流程包括()步骤。A数据分析B定义数据清洗的数据清洗的基本流程包括()步骤。A、数据分析B、定义数据清洗的策略和规则C、搜寻并确定错误实例D、纠正发现的错误搜索 题目 数据清洗的基本流程包括()步骤。 A、数据分析 B、定义数据清洗的策略和规则 C、搜寻并确定错误实例 D、纠正发现的错误 答案 解析https://easylearn.baidu.com/edu-page/tiangong/bgkdetail?id=aa83547addccda38376bafbe&fr=search
4.机器学习的基本过程流程图好的,以下是机器学习的基本过程流程图: 数据预处理:收集并清洗数据,包括去除异常值和缺失值等。 特征工程:对数据进行特征提取和转换,以便于机器学习算法的处理。 模型选择:选择适当的机器学习算法,根据数据类型和问题类型进行选择。 模型训练:使用训练数据对所选模型进行训练,调整模型的超参数。 https://wenku.csdn.net/answer/5ac401b46e804515af9fa3a25c881f30
5.大数据处理流程中数据清洗工作是在()阶段完成。确保数据换装质量和作业安全的前提下,由变化的线路所属铁路局决定在施工地点两端临近车站进行固定径路列车担当机车的 。 查看完整题目与答案 IC卡数据文件编制软件维护、管理由 负责,有关参数由电务段、机务段共同确定。 查看完整题目与答案 计算机结构化程序设计用( )种基本结构。 查看完整题目与答案 IC卡数据文件https://www.shuashuati.com/ti/2188e57ea66f4b41b60079e6f0873d76.html?fm=bd3b7f0d25f4f0ca340ecbbca695862350
6.大数据毕设基于Hadoop的音乐推荐系统的设计和实现(六)可以基于不同的用户数据,来分析并且产生最优的推荐结果,这样可以在系统对外扩展的时候能够减少投入的、并且能够快速取得预期结果。在设计该系统时,要设计一个完整的数据处理流程:数据清洗,数据上传,数据分析,数据存储,数据可视化。这个系统主要是针对于数据,对于数据进行处理,然后分析,能够得到推荐的结果,主要是基于协同https://developer.aliyun.com/article/1404874
7.数据清洗流程包括哪些步骤?数据清洗流程包括哪些步骤? 数据清洗是指对采集的数据进行初步处理,使其符合分析要求和标准,从而提高数据质量和可信度的过程。数据清洗流程包括以下六个步骤: 数据收集 数据收集是数据清洗的第一步,这个步骤是获取数据的初始状态,可以是从数据库、API、爬虫等多种途径获得数据。在这一步骤中需要注意的是,要根据需求https://www.cda.cn/bigdata/202779.html
8.科学网—系统:R语言贝叶斯网络模型R语言贝叶斯模型进阶R语言3.掌握利用R实现贝叶斯静态和动态网络学习的步骤和流程 4.掌握利用R进行贝叶斯网络推理的要点 5.通过理论知识学习与上机实践操作,具备构建贝叶斯网络模型的能力,实现科研和生产实践目的 专题一:R语言实现Bayesian Network分析的基本流程 R语言的数据类型与基本操作 https://wap.sciencenet.cn/blog-3539141-1414917.html
9.无锡政府采购网·无锡市城市信息模型(CIM)基础平台(一期工程)项目充分调研相关业务现状、数据资源现状、系统建设现状,明确无锡市城市信息模型(CIM)基础平台的发展定位和总体目标、实施计划及步骤,对平台定位、总体设计、技术路线、平台构成及数据资源体系等进行合理、可行、先进的设计,为无锡市城市信息模型(CIM)基础平台建设提供纲领性、框架性、指导性目标,推动CIM平台在城市规划、设计、https://cz.wuxi.gov.cn/doc/2024/04/17/4290410.shtml
10.数据处理全流程解析(如何进行数据处理)当完成这几步操作后,此时数据就已经脱离APP了,开始往数仓的方向流动,数仓承担着接收数据并最终将数据落地到应用的职责。 02 数据是如何被接收的 数据在到达接入层后会经历解包、解析转换、数据清洗、数据存储四个技术流程。只有经过了这一系列的步骤,数据才能够以规整的形式呈现出来,以供下一个环节的消费。 https://www.niaogebiji.com/article-114218-1.html
11.数据清洗标准与规范(31页)数据清洗流程和基本原则 数据清洗工具和技术介绍 数据清洗实例展示与分析 数据清洗常见问题及解决方案 数据清洗管理与质量保证 数据清洗未来发展趋势ContentsPage目录页 数据清洗定义与重要性数据清洗标准与规范 数据清洗定义与重要性数据清洗定义1.数据清洗是指对原始数据进行审核、纠正、转换和整理,以提高数据质量、准确性https://m.book118.com/html/2023/1228/8035074044006021.shtm
12.面向公众版“天地图”的地名地址数据库动态更新方法*收集民政局的门牌及地名数据、工商局的企事业单位登记信息、公安局的地址信息以及其他来源的地名地址信息。以上一期“天地图”地名地址数据库为本底数据并继承其数据结构、要素分类与编码。提取基础地理信息数据库的注记、居民地、道路等图层。按照一定的清洗规则和相关流程把相似重复、不一致、属性缺失的信息进行数据清洗,https://www.fx361.com/page/2022/0424/15802407.shtml
13.hadoop清洗数据流程mob649e815bbe69的技术博客在大数据处理中,数据清洗是一个重要的步骤。Hadoop作为一个分布式计算框架,可以帮助我们进行高效的数据清洗。本文将介绍使用Hadoop进行数据清洗的步骤和所需的代码。 流程图 开始文本文件导入HDFSMap阶段Reduce阶段结果输出结束 步骤说明 下面将分步骤介绍如何使用Hadoop清洗数据。 https://blog.51cto.com/u_16175464/7074610
14.数据分析的八个流程8、报告撰写。 1、目标的确定 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。 数据分析的八个流程 企服解答 数据分析的八个流程包括:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、展现和输出;7、洞察结论;8https://36kr.com/p/1491281074089859