数据清洗经验分享:什么是数据清洗如何做好数据清洗

数据加工、清洗的过程与机械加工的流水线生产过程相似。例如,从各个渠道采集到的数据质量很差,于是就需要对数据进行“脱敏”以及“包装”,最终呈现在用户面前时是一个个数据产品,这样才能提供给消费者,进行数据交易。

1、Web服务器的日志

2、某种科学仪器的输出结果

3、在线调查问卷的导出结果

4、1970s的政府数据

5、企业顾问准备的报告

3、数据损坏(有些记录可能会因为种种原因被破坏)

因此,你必须经常维护你的清洗程序来清洗这些原始数据,把他们转化成易于分析的格式,通常称为datawrangling。接下来会介绍一些关于如何有效清洗数据,所有介绍的内容都可以由任意编程语言实现。

使用断言

这是最重要的一点经验:使用断言(Assertions)揪出代码中的bug。用断言的形式写下你对代码格式的假设,如果一旦发现有数据跟你的断言相悖,就修改这些断言。

在理想世界中,所有记录都应该是整整齐齐的格式,并且遵循某种简洁的内在结构。但是实际当中可不是这样。写断言写到你眼出血,即便是出血还得再写。

洗数据的程序肯定会经常崩溃。这很好,因为每一次崩溃都意味着你这些糟糕的数据又跟你最初的假设相悖了。反复的改进你的断言直到能成功的走通。但一定要尽可能让他们保持严格,不要太宽松,要不然可能达不到你要的效果。最坏的情况不是程序走不通,而是走出来不是你要的结果。

不要默默的跳过记录

原始数据中有些记录是不完整或者损坏的,所以洗数据的程序只能跳过。默默的跳过这些记录不是最好的办法,因为你不知道什么数据遗漏了。因此,这样做更好:

1、打印出warning提示信息,这样你就能够过后再去寻找什么地方出错了

2、记录总共跳过了多少记录,成功清洗了多少记录。这样做能够让你对原始数据的质量有个大致的感觉,比如,如果只跳过了0.5%,这还说的过去。但是如果跳过了35%,那就该看看这些数据或者代码存在什么问题了。

使用Set或者Counter把变量的类别以及类别出现的频次存储起来

1、对于某个类别,假如碰到了始料未及的新取值时,就能够打印一条消息提醒你一下。

2、洗完数据之后供你反过头来检查。例如,假如有人把血型误填成C,那回过头来就能轻松发现了。

断点清洗

如果你有大量的原始数据需要清洗,要一次清洗完可能需要很久,有可能是5分钟,10分钟,一小时,甚至是几天。实际当中,经常在洗到一半的时候突然崩溃了。

假设你有100万条记录,你的清洗程序在第325392条因为某些异常崩溃了,你修改了这个bug,然后重新清洗,这样的话,程序就得重新从1清洗到325391,这是在做无用功。其实可以这么做:1.让你的清洗程序打印出来当前在清洗第几条,这样,如果崩溃了,你就能知道处理到哪条时崩溃了。2.让你的程序支持在断点处开始清洗,这样当重新清洗时,你就能从325392直接开始。重洗的代码有可能会再次崩溃,你只要再次修正bug然后从再次崩溃的记录开始就行了。

在一部分数据上进行测试

但是要注意,这样做的话,用于测试的子集往往不能涵盖到一些奇葩记录,因为奇葩总是比较少见的嘛。

把清洗日志打印到文件中

当运行清洗程序时,把清洗日志和错误提示都打印到文件当中,这样就能轻松的使用文本编辑器来查看他们了。

可选:把原始数据一并存储下来

不过,这样做的坏处就是需要消耗双倍的存储空间,并且让某些清洗操作变得更慢。所以这一条只适用于效率允许的情况下。

最后一点,验证清洗后的数据

记得写一个验证程序来验证你清洗后得到的干净数据是否跟你预期的格式一致。你不能控制原始数据的格式,但是你能够控制干净数据的格式。所以,一定要确保干净数据的格式是符合你预期的格式的。

THE END
1.数据科学猫:数据预处理之数据清洗(DataCleansing)本文主要介绍了数据清洗在机器学习建模中的关键作用,包括数据清洗的定义、目标、方法和常见操作。数据清洗旨在提升数据质量,确保唯一性、完整性、一致性和有效性。文中详细阐述了如何检查和处理重复、缺失、异常和错误数据,以及使用Python、R、SQL等工具进行数据清洗的实践技巧。 https://blog.csdn.net/Orange_Spotty_Cat/article/details/81335640
2.数据清洗的一些梳理数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。国外有些学术机构会专门研究如何做数据清洗,相关的书籍也不少。 (美亚搜data cleaning的结果,可以看到这书还挺贵) 我将在这篇文章中,尝试非常浅层次的梳理https://zhuanlan.zhihu.com/p/20571505
3.深度学习数据清洗的目的mob649e81673fa5的技术博客深度学习的成功依赖于高质量的数据。在深度学习之前,数据清洗是一个至关重要的步骤。本文将详细介绍数据清洗的目的,流程及实现步骤,帮助初学者更好地理解这一过程。 数据清洗目的 数据清洗的主要目的是去除噪声和不一致的数据,确保输入到深度学习模型中的数据是准确和高效的。具体包括: https://blog.51cto.com/u_16175512/12697067
4.数据清洗工具:基于规则引擎的数据预处理什么是数据清洗工具? 数据清洗工具是一种用于数据预处理的软件工具,它能够通过规则引擎对数据进行清洗、筛选、转换以及修复,以准备好数据用于分析和建模。数据清洗工具通常能够识别和处理数据中的错误、缺失、重复、不一致等问题,提高数据的质量和可靠性。 数据清洗工具的作用 https://www.jianshu.com/p/ee189c157e5d
5.数据预处理与清洗洞察研究数据预处理与清洗-洞察研究  下载积分:1389 内容提示: 数据预处理与清洗 第一部分 数据预处理基本概念 2 第二部分 数据清洗技术概述 5 第三部分 缺失值处理策略 https://www.doc88.com/p-33371833889960.html
6.数据清洗是什么意思数据清洗是什么意思 数据清洗(学术名词) “数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。?2022 Baidu |由 百度智能云 提供计算服务 | 使用百度前必读 | 文库协议 | 网站地图 | 百度营销 https://wenku.baidu.com/view/47a10e02f31dc281e53a580216fc700abb68529a.html
7.什么是数据清洗?安装轴承前必须进行清洗,清洗时应注意什么? 安装轴承前必须进行清洗,清洗时应注意什么 数据清洗过程不需要提及。 做数据分析,需要对收集来的数据做哪些清洗() 清洗的目的是什么? 清洗的步骤是什么() 数据清洗的方法一般不包括() 呼叫中心数据清洗的主要作用是() 观星台上的数据清洗包括哪些步骤() 鼓风式清洗机的https://www.eepw.com/shiti/ru4wdjixlokx.html
8.什么是数据清洗?面对常见的数据清洗问题,有哪些解决方法?什么是数据清洗?面对常见的数据清洗问题,有哪些解决方法? 数字化时代,数据可以说是如同企业的血液。然而,不准确、不完整、不一致的数据却让企业的运营处处受阻。很多企业最初的出发点是好的,想要降本增效,结果呢,是降本增笑。企业怎么能从海量数据中找到准确的信息而避免耗费大量时间和精力?又怎么能避免数据混乱而https://www.fanruan.com/bw/doc/180930
9.什么是数据清洗?带你了解关于数据清洗的三大问题!什么是数据清洗?带你了解关于数据清洗的三大问题!知识百科?数栈君发表了文章 ? 0 个评论 ? 203 次浏览 ? 2023-12-06 09:48 在当今的信息时代,数据已经成为企业决策的重要依据。然而,原始数据往往存在许多问题,如缺失值、异常值、重复值等,这些问题会影响数据分析的准确性和可靠性。因此,数据清洗https://www.dtstack.com/bbs/topic/9157
10.数据清洗到底是什么?数据清洗的最佳实践数据清洗到底是什么?数据清洗的最佳实践 笔者在《数据治理:说起来容易,做起来难!》一文中,曾提到:数据治理不仅是一个苦活、累活,还是个受力不讨好,经常背锅,领导看不见价值的活。 数据治理需要对每个数据域、数据实体、数据条目、数据项进行梳理和标准化,甚至有时候需要人工逐条、逐字段的定义数据标准、核实数据https://www.bzx1688.com/g/544998.html
11.什么是数据科学中的数据清洗–PingCode数据清洗(Data Cleaning)是数据科学领域中的一项关键过程,它涉及从原始数据中移除不准确、不完整、无关或者格式错误的数据。数据清洗不仅保障了数据的准确性和可用性,它也是数据分析和模型构建的关键前提条件。一个详细的数据清洗步骤是识别并处理缺失值:缺失值会干扰数据分析和统计建模,不同的处理办法包括删除缺失值、https://docs.pingcode.com/ask/126873.html
12.数据清洗是指什么数据清洗是指对数据进行预处理和清理,以消除数据中的错误、缺失、异常值等问题的过程。数据清洗是数据分析和机器学习的重要前置步骤,其目的是提高数据的质量和可靠性,从而使得后续的数据分析和机器学习的结果更加准确和可靠。 数据清洗的步骤通常包括以下几个方面: https://www.ai-indeed.com/encyclopedia/4212.html
13.数据清洗是什么,有哪些处理方法数据清洗是什么,有哪些处理方法 平常有接触数据分析相关工作的小伙伴,对数据挖掘应该不会感到陌生,但你知道数据挖掘中的基础是什么吗?如今跟着小编一起来学习一下,数据挖掘中的基础——数据预处理的意义和概念。 一、数据预处理的意义 随着大数据时代的到来,数据一直在产生,但这些数据往往是巨大的、混乱的。如果直接用https://www.smartbi.com.cn/gn/ssew
14.数据分析中的数据清洗指什么数据清洗是指在进行数据分析前,对原始数据进行处理,去除数据集中的错误、缺失、重复、不一致等问题,以确保数据的质量和准确性。它直接影响到后续分析结果的准确性和可信度。 一、数据清洗的步骤 1.确定数据清洗的目标和方法 在进行数据清洗前,需要明确数据清洗的目标和方法。根据数据类型、数据来源、实际情况等,选择https://www.linkflowtech.com/news/1071
15.数据安全知识:数据整理与数据清理数据清理基础知识 在深入研究数据清理的复杂性之前,请了解它在确保数据的质量和可靠性方面发挥着至关重要的作用。此过程涉及识别错误和不一致之处,以提高数据的准确性和可用性。 什么是数据清洗? 数据清理,也称为数据清理,是为提高数据集的准确性和完整性而进行的细致过程。这一切都是为了发现可能会破坏您的分析模型https://www.360doc.cn/article/68899713_1118249272.html