数据预处理之数据清洗caiqingfei

现实世界中的数据总是“脏的”,主要体现在数据不准确,不完整,不一致,含有噪声和异常等,而数据清洗的目的就是尽可能的使现实中的数据变得准确,完整,一致,真实,可信。

下面逐一讨论如何对存在这些问题数据进行清理。

先从简单的开始:

一,数据不完整,即数据中存在缺失值,对于缺失值的处理主要有以下几种方法:

#删除存在缺失值的记录,如果样本数据量比较大,缺失信息较少,删除少量的缺失,是可以接受;但如果样本数据比较大,缺失也比较大的情况,或样本数据量本身比较小,删除缺失的信息对数据挖掘结果来说可能得到不可靠的结论;

#不处理缺失信息,直接对缺失的数据进行数据挖掘,这可能造成挖掘分析难度大,结论不可靠;

#填充缺失信息,

1,平均值、众数、中位数进行填充;如数据分布比较均匀,在曲线图上表现为变化比较平缓,可以用均值进行填充;当某一个值在特征向量中出现次数较多,则可以众数填充。

2,使用常数填充,这个需结合实际分析,分析数据间的实际意义;

3,多项式插值:回归插值,拉格朗日插值,牛顿插值法,样条插值

4,KNN插值(K最近邻),效果不错,补全后的数据不改变分布。推荐大家用,R中实现了一个数据预处理包yaImpute,感兴趣的可以参考

二,数据中存在异常处理方法:

1,通过简单的统计分析,如3σ准则,数值分布在(μ-3σ,μ+3σ)中的概率为0.9974,可以认为,Y的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。由于落在(μ-3σ,μ+3σ)范围内的概率是很小的,因此可以认为,不在(μ-3σ,μ+3σ)范围内的数据是异常数据。(使用3σ准则使用前提的,数据统计分布是正态,或近似正态,怎么判断正态性?R语言中有一个函数可以近似判断,即:shapiro.test()可以进行关于正态分布的Shapiro-Wilk检验)

2,箱型图分析

箱型图提供了识别异常值的标准:异常通常被定义为:

小于QL-1.5IQR或大于QU+1.5IQR

式中:QL为下四分位点,QU上四分位点,IQR分位距=QU-QL。

箱型图分析优点:箱型图根据实测数据绘制而成,不要求数据具有特定的统计分布,另一方面,箱型图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的鲁棒性:多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响。

三,数据中噪声处理

处理方法:分箱;聚类;计算机和人工检查结合;回归

1,分箱

分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。

分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。

统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。

用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。

例:客户收入属性income排序后的值(人民币元):800100012001500150018002000230025002800300035004000450048005000,分箱的结果如下。

统一权重:设定权重(箱子深度)为4,分箱后

箱1:800100012001500

箱2:1500180020002300

箱3:2500280030003500

箱4:4000450048005000

统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后

箱1:80010001200150015001800

箱2:20002300250028003000

箱3:350040004500

箱4:48005000

用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后

箱1:800

箱2:100012001500150018002000

箱3:2300250028003000

箱4:35004000

箱5:450048005000

下面介绍数据平滑方法:

⑴按平均值平滑

对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。

⑵按边界值平滑

用距离较小的边界值替代箱中每一数据。

⑶按中值平滑

取箱子的中值,用来替代箱子中的所有数据。

2,聚类:将物理的或抽象对象的集合分组为由类似的对象组成的多个类。

找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。

总结

这些方法并不是万能,现实世界的复杂多样,我们需要针对具体情况具体分析,选择合适的方法,提高数据质量,以保证得到可靠的数据挖掘结论。

THE END
1.深度学习数据清洗的目的mob649e81673fa5的技术博客深度学习数据清洗的目的,#深度学习数据清洗的目的与实现深度学习的成功依赖于高质量的数据。在深度学习之前,数据清洗是一个至关重要的步骤。本文将详细介绍数据清洗的目的,流程及实现步骤,帮助初学者更好地理解这一过程。##数据清洗目的数据清洗的主要目的是去除噪声和https://blog.51cto.com/u_16175512/12697067
2.数据清洗的重要性与技巧:提升大数据分析的准确性和效率数据清洗在大数据分析中扮演着至关重要的角色,它直接关系到分析的准确性和效率。以下将详细探讨数据清洗的重要性以及相关的技巧。 一、数据清洗的重要性 提高数据质量:数据清洗能够去除或修正数据集中的错误、重复、不完整或不一致的数据,从而提高数据质量。脏数据(包含错误、重复、不完整的数据)可能导致误导性的结论,https://blog.csdn.net/Shaidou_Data/article/details/144110971
3.数据清洗的目的何在,你是如何理解数据清洗这一概念的?阅读下面文段,完成4~6题。 众人都轰动了,拥着往棋场走去。到了街上,百十人走成一片。行人见了,纷纷问怎么回事,可是知青打架?待明白了,就都跟着走。走过半条街,竟有上千人跟着跑来跑去。商店里的店员和顾客也都站出来张望。长途车路过这里开不过,乘客们纷纷探出头来,只见一街人头攒动,尘土飞起https://www.shuashuati.com/ti/9f5cb84ad5f2480193e676b8fdcc32f7.html
4.一文了解数据治理全知识体系!怎么引导客户呢?这里要引入一个众所周知的概念:二八原则。实际上,二八原则在数据治理中同样适用:80%的数据业务,其实是靠20%的数据在支撑;同样的,80%的数据质量问题,其实是由那20%的系统和人产生的。在数据治理的过程中,如果能找出这20%的数据,和这20%的系统和人,毫无疑问,将会起到事半功倍的效果。 https://www.clii.com.cn/lhrh/hyxx/202204/t20220427_3953726.html
5.机器学习中的数据清洗与特征处理综述机器学习中的数据清洗与特征处理综述 收藏 机器学习中的数据清洗与特征处理综述 背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统http://api.cda.cn/view/8897.html
6.如何在数据分析中进行数据清洗?数据清洗的作用主要有:野值判断和缺失值处理 一、野值判别。所谓野值,就是在一组数据中的“异常”数据,这些数据明显的与其他数据存在区别,野值包括以下这几个类型:在数据采集的过程中,完整性是基本的要求,也是相对来说比较好判别的数据。2、数据不准确 二、野值判断https://aiqicha.baidu.com/qifuknowledge/detail?id=17001272656
7.新澳门一码中精准一码免费中特,多元回归分析18.74.80小成绿毛虫在日用玻璃制品制造发布了:新澳门一码中精准一码免费中特,多元回归分析_18.74.80小成, 新澳门一码中精准一码免费中特,多元回归分析_18.74.80小成 在当今的数据驱动时代,如何利用数据来优化决策变得尤为重要。澳门新模式的精准数据分析,尤其是“一码中”系https://cdyabz.com/post/15064.html
8.研究生学术训练营之信息素养系列回顾(20182018年-2020年,图书馆依托“双一流”校研究生院的“学术训练营”项目,开启了研究生学术训练营之信息素养系列讲座及工作坊,主要对象为本校在读研究生、青年学者,结合本校学科特色,以高端学术讲座、工作坊和数据竞赛等形式,培养研究人员信息意识,提高收集、分析、处理、应用信息的能力,内容涉及数据检索、数据挖掘、数字https://wmcj.shisu.edu.cn/1a/15/c990a137749/page.htm
9.77778888王中王最新精准,你的成功之路,qs,V数据,如同现代社会的血脉,流淌在商业决策的每一个角落,而精准数据更是企业竞争中不可或缺的“王中王”,我们将一同探索“77778888王中王”这一神秘代码背后的故事,以及它是如何在复杂多变的数据海洋中,为追求成功的你铺设一条清晰路径的。 一、数据的王国:寻找“77778888王中王” https://wap.sdxmky.cn/kexue/5277.html