数据清洗

缺失值数据、错误值数据、异常值数据、重复数据、不一致数据,在生产、金融、科研、管理等各类信息资源中普遍存在,由于这些数据的存在直接影响数据质量,因而被称为“脏数据”。

为了控制“脏数据”对分析结果的影响,必须采取有效措施,对其进行处理,降低“脏数据”在信息资源中的比例。数据清洗是数据挖掘的重要步骤之一,需要保证数据值的正确性和一致性,解决字段值的缺失问题,从而将数据质量提高到能够满足分析精度的要求。数据清洗分为分析样本数据、定义“脏数据”类型、识别“脏数据”和处理“脏数据”四个阶段。

对于不同类型“脏数据”,其清洗方法有所差异。

数据缺失主要是指数据中一些应该有的信息完全或部分空缺,如客户名称或客户区域信息缺失,用户年龄信息缺失等。对于数据空缺,有些必须手工填入,有些可以利用本数据源或其他数据源,将某个变量的缺失值统一填写为常量、平均值、最大值、最小值或更为复杂的概率估计值。也可利用机器学习算法对没有缺失值的数据集进行训练,得到相应的模型,用于填充缺失的值。当某一变量的缺失值过多时,通常采用从数据集中删除该变量的方法进行数据清理。

人工录入数据有时会将数值数据输成全角数字字符,或者录入格式不正确的日期,或者产生某些实体名称、专业词汇的拼写错误等;在进行文献资源数字化工作时,文字识别软件有时会造成字符识别错误;在采用射频技术进行信息的自动识别与采集时,有时会对一些模糊不清的信号识别错误,有时会丢失部分信息。通过发现描述同一实体的不同数据,即实体识别,可以有效地检测出实体不同一、过时等错误。通过发现描述实体属性的真实值,可以实现对于实体不同一数据的修复。以一个高质量的数据集合作为主数据,以该数据集为基准,可以用来发现数据中的错误,也可利用给定规则捕捉和修复数据中的错误。使用偏差分析方法、聚类方法,可以寻找结构化数据中可能的错误值或异常值,使用不同属性间的约束可以检测和清理结构化数据中的错误值。利用分箱方法可以平滑数值型属性的值,避开错误值或异常值。

一致性检测是根据每个变量的合理取值范围和相互关系,检测数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如,身高出现负数,每月出勤100次,都应视为超出正常值域范围。又如,调查对象声称自己是某品牌的重度购买者和使用者,但是同时又在熟悉程度量表上给了很低的分值,这属于逻辑上的不一致。这类“脏数据”可通过定义数据的有效性规则,参照完整性等方式进行检测或预防。

THE END
1.数据清洗的重要性与技巧:提升大数据分析的准确性和效率提升模型性能:在机器学习和数据分析领域,模型的性能在很大程度上依赖于输入数据的质量。数据清洗包括特征选择和特征工程,这些步骤可以帮助模型更好地识别数据中的模式,从而提高模型的预测能力。 节省时间和资源:在数据分析的早期阶段进行数据清洗可以避免在后续阶段进行昂贵的修正。自动化数据清洗流程可以进一步节省时间和资https://blog.csdn.net/Shaidou_Data/article/details/144110971
2.数据清洗的目的是什么?车票种类:纸质?维码单次票、?脸单次票、电维码单次票(光?空轨旅游线APP乘?码、?付宝?程序乘?码、微信?程序乘?码)、定期票(?脸?票、?脸?票)(修正:加上家庭票)。( )https://www.shuashuati.com/ti/436221af316e47ba9db6b7da26b08815.html?fm=bd01ee983b642cfa3df2cfd28ce30c6bf7
3.数据清洗的目的是什么?A.去掉重复数据B.补上缺失数据C.检查逻辑百度试题 题目数据清洗的目的是什么? A.去掉重复数据B.补上缺失数据C.检查逻辑错误数据相关知识点: 试题来源: 解析 A,B,C 反馈 收藏 https://easylearn.baidu.com/edu-page/tiangong/bgkdetail?id=c454398c71fe910ef12df84e&fr=search
4.数据清洗的主要目的是什么?数据清洗的主要目的是什么? 数据清洗的主要目的是删除重复信息、纠正存在的错误,并提供数据一致性。这是数据预处理的第一步,也是保证后续结果正确的重要一环。如果不进行数据清洗,我们可能会得到错误的结果,比如因小数点错误而造成数据放大十倍,百倍甚至更大等。https://www.ai-indeed.com/encyclopedia/5463.html
5.在数据处理过程中,数据清洗的目的是()。评价干部的工作成效,不仅要看纸面上的指标数据,更要看(),不能简单以国内生产总值论英雄,更不能搞脱离实际的盲目攀比,不搞劳民伤财的形象工程和政绩工程。 点击查看答案进入小程序搜题 扎实推进共同富裕,要构建()协调配套的基础性制度安排。 点击查看答案进入小程序搜题 https://m.ppkao.com/wangke/daan/8345dcfcbb0a4e3b9027619df99311c1
6.一篇文章带你看完BI工具是如何帮助业务人员进行销售分析(1)数据清洗 ●删除重复数据 重复值会干扰数据的准确性,删除重复值确保数据是唯一的。由于在该数据集中没有唯一的可指定该数据行的字段,且同一个店铺同一时间的客户确实可以多次购买多件同样的衣服,因此可产生同样的数据,故该数据集不需要进行重复值操作。 https://www.finebi.com/industry/sales-analysis
7.什么是ETL?一文掌握ETL设计过程ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。 1、数据清洗 首先进行数据清洗,对原始数据中的错误予以纠正,或者对缺失数据进行补填。譬如,现在要建设一个增值税发票的数据中台。这时,系统从许多不同的来源采集与增值税发票相关的https://www.51cto.com/article/721092.html
8.大数据金融第二章大数据相关技术(一) 数据清洗 目的是填补缺失的数据、平滑噪声数据、删除冗余数据、纠正错误数据、清除异常数据,将原始的数据格式进行标准化。 (二) 数据集成 数据集成是将多个数据源中的数据结合起来并统一存储,建立数据仓库,以更好的解决数据的分布性和异构性问题。 https://www.jianshu.com/p/d68251554c66
9.数据清洗的目的通识教育数据清洗的目的 数据清洗是旨在消除或减少数据噪音(例如,使用平滑技术)和处理遗漏值(例如,用该属性最常出现的值,或根据统计,用最可能的值替换遗漏值)的数据预处理。尽管大部分分类算法都有处理噪音和遗漏值的机制,但该步骤有助于减少学习时的混乱http://www.knowledgeatshare.cn/article/3679