数据清洗经验分享:什么是数据清洗如何做好数据清洗

数据加工、清洗的过程与机械加工的流水线生产过程相似。例如,从各个渠道采集到的数据质量很差,于是就需要对数据进行“脱敏”以及“包装”,最终呈现在用户面前时是一个个数据产品,这样才能提供给消费者,进行数据交易。

1、Web服务器的日志

2、某种科学仪器的输出结果

3、在线调查问卷的导出结果

4、1970s的政府数据

5、企业顾问准备的报告

3、数据损坏(有些记录可能会因为种种原因被破坏)

因此,你必须经常维护你的清洗程序来清洗这些原始数据,把他们转化成易于分析的格式,通常称为datawrangling。接下来会介绍一些关于如何有效清洗数据,所有介绍的内容都可以由任意编程语言实现。

使用断言

这是最重要的一点经验:使用断言(Assertions)揪出代码中的bug。用断言的形式写下你对代码格式的假设,如果一旦发现有数据跟你的断言相悖,就修改这些断言。

在理想世界中,所有记录都应该是整整齐齐的格式,并且遵循某种简洁的内在结构。但是实际当中可不是这样。写断言写到你眼出血,即便是出血还得再写。

洗数据的程序肯定会经常崩溃。这很好,因为每一次崩溃都意味着你这些糟糕的数据又跟你最初的假设相悖了。反复的改进你的断言直到能成功的走通。但一定要尽可能让他们保持严格,不要太宽松,要不然可能达不到你要的效果。最坏的情况不是程序走不通,而是走出来不是你要的结果。

不要默默的跳过记录

原始数据中有些记录是不完整或者损坏的,所以洗数据的程序只能跳过。默默的跳过这些记录不是最好的办法,因为你不知道什么数据遗漏了。因此,这样做更好:

1、打印出warning提示信息,这样你就能够过后再去寻找什么地方出错了

2、记录总共跳过了多少记录,成功清洗了多少记录。这样做能够让你对原始数据的质量有个大致的感觉,比如,如果只跳过了0.5%,这还说的过去。但是如果跳过了35%,那就该看看这些数据或者代码存在什么问题了。

使用Set或者Counter把变量的类别以及类别出现的频次存储起来

1、对于某个类别,假如碰到了始料未及的新取值时,就能够打印一条消息提醒你一下。

2、洗完数据之后供你反过头来检查。例如,假如有人把血型误填成C,那回过头来就能轻松发现了。

断点清洗

如果你有大量的原始数据需要清洗,要一次清洗完可能需要很久,有可能是5分钟,10分钟,一小时,甚至是几天。实际当中,经常在洗到一半的时候突然崩溃了。

假设你有100万条记录,你的清洗程序在第325392条因为某些异常崩溃了,你修改了这个bug,然后重新清洗,这样的话,程序就得重新从1清洗到325391,这是在做无用功。其实可以这么做:1.让你的清洗程序打印出来当前在清洗第几条,这样,如果崩溃了,你就能知道处理到哪条时崩溃了。2.让你的程序支持在断点处开始清洗,这样当重新清洗时,你就能从325392直接开始。重洗的代码有可能会再次崩溃,你只要再次修正bug然后从再次崩溃的记录开始就行了。

在一部分数据上进行测试

但是要注意,这样做的话,用于测试的子集往往不能涵盖到一些奇葩记录,因为奇葩总是比较少见的嘛。

把清洗日志打印到文件中

当运行清洗程序时,把清洗日志和错误提示都打印到文件当中,这样就能轻松的使用文本编辑器来查看他们了。

可选:把原始数据一并存储下来

不过,这样做的坏处就是需要消耗双倍的存储空间,并且让某些清洗操作变得更慢。所以这一条只适用于效率允许的情况下。

最后一点,验证清洗后的数据

记得写一个验证程序来验证你清洗后得到的干净数据是否跟你预期的格式一致。你不能控制原始数据的格式,但是你能够控制干净数据的格式。所以,一定要确保干净数据的格式是符合你预期的格式的。

THE END
1.数据清洗的重要性及步骤4. 数据发布:最后,将清洗后的数据发布到指定的数据库或数据仓库中,以供后续分析和应用。四、结论数据清洗是提高数据质量的关键步骤之一,它可以帮助我们获得更准确、更完整的数据,从而为我们的决策提供更好的支持。通过了解和掌握数据清洗的步骤和方法,我们可以更好地应对各种数据质量问题,为我们的工作和生活带来更多https://aiqicha.baidu.com/qifuknowledge/detail?id=10201303570
2.大数据什么是数据清洗?(附应用嘲及解决方案)数据清洗是一个耗时的过程,尤其是在数据量大和数据质量差的情况下,需要投入大量的时间和资源。 通过使用专业的数据处理工具,如FineDataLink,可以有效地解决数据清洗的痛点,提高数据处理的效率和质量。FineDataLink提供了多种可视化算子和功能,如新增计算列、数据过滤、数据关联等,帮助用户快速完成数据清洗和处理,无需编https://blog.csdn.net/oOBubbleX/article/details/140350709
3.大数据应用导论Chapter02大数据的采集与清洗大数据的处理主要是对数据的清洗,将其转化为可利用的数据目标,数据科学家约60%的时间都在进行数据清洗工作。 数据清洗是对数据进行转换、缺失处理、异常处理等。数据清洗可以提高数据的质量,提高数据分析的准确性。 数据清洗一般在大数据分析流程中的第三步: https://blog.51cto.com/14683590/5236225
4.感悟与反思┃“数据清洗工作”的总结与反思——席义博当时告诉大家把每遇到一次报错,都做一系列整理工作,包括问题描述、截图、出错的源文件处理等等,之后还涉及到类似“断点续传”的操作,如果每次出错都重新来过,数据清洗的效率将大大降低。这么过了几天,对大家的报错情况基本都有数儿了,我虽说不清楚为什么,但至少能清楚地描述出“当如何如何时”就会有“报错”,也许http://www.sxmu.edu.cn/bdcd/info/1097/1393.htm
5.数据治理知识分享—数据元主数据参考标准指标数据业务术语07、数据清洗 依据标准对存量主数据开展清洗工作,清洗过程除了基于质量规则对已有不规范数据进行属性补充、规范化填写以外,更重要的是识别重复的数据、对重复数据进行去重及合并,数据层面主要通过新旧编码映射的方式确保旧编码的业务正常开展。 08、数据共享 存量数据的共享,主要通过初始化导入方式开展;增量数据的共享,主要https://www.asktempo.com/news/industry-information/1461.html
6.数据清洗工程师岗位职责(工作内容,是做什么的)数据清洗工程师是做什么的?有前途吗?工资待遇怎样?94.7%的岗位拿¥8-30K/月。招聘要求高吗?学历本科最多占89.7%,经验3-5年最多占48.6%。数据清洗工程师岗位职责怎么写?为你汇总德特赛维技术有限公司,东莞艾特信息科技有限公司,北京学果科技有限公司等公司的工作描述https://www.jobui.com/gangwei/shujuqingxigongchengshi/duty/
7.什么是数据清洗?面对常见的数据清洗问题,有哪些解决方法?答案是——数据清洗。简单来说,数据清洗就是对数据进行审查和校验的过程,目的是删除重复信息、纠正存在的错误,并提供数据一致性。如何有效进行数据清洗,走好数字化转型的每一步,是企业要思考的重要命题。 一、数据清洗的意义. 众所周知,在数据分析报告中,未经清洗的数据很可能会导致错误的结论,降低报告的可信度。而https://www.fanruan.com/bw/doc/180930
8.什么是数据清洗数据清洗,顾名思义就是把"脏"的"洗掉",指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或http://www.chinaedg.com/e/wap/show.php?classid=85&id=260&style=0&bclassid=69&cid=85
9.数据分析的流程是怎样的数据分析主要有八个流程:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、将数据展现和输出;7、洞察结论;8、报告撰写。 1、目标的确定 只有弄清分析的目的是什么?才能准确定位分析因子,提出有价值的问题,提供清晰的思路。 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来https://www.linkflowtech.com/news/626
10.数据分析是什么工作内容数据分析是什么工作内容 数据分析的工作内容包括:数据体系的搭建、数据清洗、数据预处理、可视化展示。(1)数据体系的搭建:每一个产品的功能都需要通过数据来监控这个功能的使用情况,包括用户量的变化情况使用的体验情况,业务的健康情况,业务的机会点等。所以在公司或者企业内部都会建立起一套相对应的叫做数据体系的东西https://36kr.com/p/dp1517207321827335
11.牛笔了,我用Python画了一个生日蛋糕,成功赢得了女友的芳心!数据库连接可用于连接众多数据库以及访问通用数据库接口,可用于数据库维护、管理和增、删、改、查等日常操作。 04 数据清洗转换 数据清洗转换主用于数据正式应用之前的预处理工作。 05 数据计算和统计分析 数据计算和统计分析主要用于数据探查、计算和初步数据分析等工作。 https://www.jianshu.com/p/59a8e49b8cf0