这篇文章把数据讲透了(三):数据清洗空值data异常值代码样本

编辑导读:随着“数智化”时代的到来,我们生活中的方方面面都离不开数据,而你真的了解数据吗?本文将为你重新解读数据的概念和价值,以及数据的价值是如何在“数智化”时代下一步一步得到运用与升华的;因内容颇多,笔者将分几期为大家进行讲解。

一、前言

二、数据清洗(择菜、洗菜)

想一步步了解数据清洗究竟是怎样如何运作的,首先我们需要明确数据清洗的概念是什么?

1.数据清洗的基本概念与重要性

数据清洗——重新检查和验证数据的过程,旨在删除重复信息,纠正现有错误并提供数据一致性。

以上,是百度百科对数据清洗的概念定义。以我个人的理解来看,数据清洗就是一个将“脏数据”替换成“高质量可用数据“的过程。

毕竟,数据清洗作为数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了后续研究型数据分析结果的准确性。

2.数据清洗的对象与方法实操

以上陈述了数据清洗的重要性,下面我们来进一步确定,需要被清洗的对象。

数据清洗的对象我个人将其大致分两类,下面我们逐一进行介绍。

1)可避免型脏数据

可避免型脏数据,顾名思义,这类脏数据可以直接通过简单处理成为有效数据或人为修改避免的。

这类脏数据在日常生活中,其实是十分常见的,例如命名不规范导致的错误、拼写错误、输入错误、空值等等。

认识了此类脏数据的类型,那么我们在拿到数据后,如何及时的对此类“可修正”的数据错误进行侦察订正呢?此处我们分别以excel、python为例,数据集还是上面二手车数据。

excel中,对“可避免型”脏数据的侦察,可以通过筛选功能进行查看,如下,选中“4年转售价”维度的数据,并对其进行筛选,可以侦察到nan(空)值2个,输入错误值2个。

python语言中,则可以使用data.describe()查看目标列的基本统计信息:

查看对应信息后,若确定有错别字,英语大小写不统一的情况可以使用:data[‘car-data’].str.upper();输入了额外的空格:data[‘car-data’].str.strip()。

2)不可避免型脏数据

不可避免型脏数据,主要形式包括异常值、重复值、空值等;此类脏数据的处理,就需要联系一些统计学知识进行侦察与填补,下面还是举一些具体例子进行阐述。

异常值:

常用侦察手段3σ定律检验(假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除,一般而言这个区间是平均值正负三个标准差,因此称3σ定律)。

如下所示,二手车数据中需要对“车宽”的异常值进行检验:

重复值:

如下所示,拿到数据后,我们先要校验一下是否存在重复记录;如果存在重复记录,python中可以使用drop_duplicates()来删除重复数据,以免重复计入,导致数据准确性下降。

如上所示,第5和第9条数据,除id信息外,其余信息均相同,对此类数据我们需要根据它们的数据特征进行删除;而观察下方数据,有FIRSTNAME和LASTNAME作为独一无二的标识,我们就能根据数据特征利用下方代码对重复值进行剔除。

df.drop_duplicates([‘first_name’,’last_name’],inplace=True)

空值:

针对空值而言,python语言有多种方式对空值进行侦察返回,下面我们逐一介绍。

data.isnull()、data.notnull(),会返回trueorfalse,我们就能得知对应指标的空值情况,还能用sum()函数,对空值的总体个数进行把控。

面对以上各类空值,我们应该怎么做呢?删除单个?删除多个?利用平均值、中位数进行补充?

其实以上的操作方法,在应对空值时都是十分常见的,而我们需要掌握的是,在合适的场景使用对应的方式,下面为大家介绍一些常见的空值处理场景~

场景1:该维度数据,半数以上or全为为空值——从指标有效性角度出发考虑,是否删除对应指标。

命令:data.dropna(how=’all’),删除全为空值的行(无效指标)。

场景2:该维度存在空值(但空值数量不多),且总体数据样本量大——因为数据样本充足,可以考虑对存在nan值的样本进行过滤,采用无nan值样本(代码如下,涉及nan值的数据都会被剔除)。

df.dropna(axis=0,how=’any’)#dropallrowsthathaveanyNaNvalues。

场景3:该维度存在空值(但空值数量不多),且样本总体数量有限,故而不能像场景2一样,对有nan值的数据进行抛弃,需要利用数理统计方法,选取合适值对nan值进行填充。

代码:data.fillna(我们可以看到此例中,使用均值对空值进行填充)。

三、结语

本期,笔者通过一个“洗菜、择菜”的例子,带着大家了解了数据清洗的对象与大体方法,相信大家有所收获!

下期,笔者讲在数据清洗的基础上,为大家讲解如何利用常用工具进行数据挖掘!

本文由@小陈同学ing.原创发布于人人都是产品经理,未经作者许可,禁止转载。

THE END
1.数据清洗的重要性与技巧:提升大数据分析的准确性和效率一、数据清洗的重要性 提高数据质量:数据清洗能够去除或修正数据集中的错误、重复、不完整或不一致的数据,从而提高数据质量。脏数据(包含错误、重复、不完整的数据)可能导致误导性的结论,而清洗后的数据则能提供更准确的输入,为后续的数据分析和解释提供坚实的基础。 https://www.shaidou.net/shujuqingx/808.html
2.深度学习数据清洗的目的mob649e81673fa5的技术博客数据清洗过程旅程 结论 通过上述步骤,我们可以有效地清洗深度学习数据。保证数据的质量不仅能提高模型的准确性,也能缩短训练时间。初学者通过学习这些步骤,可以为今后的深度学习模型构建打下坚实的基础。希望这篇文章对你有所帮助,鼓励你进一步探索数据清洗的重要性与技巧!https://blog.51cto.com/u_16175512/12697067
3.数据治理:如何实施数据清洗,提升数据质量?对此,中翰凭借多年的工作经验,不仅总结制定出了一套科学有效的实施流程和策略,还研发了基于中翰数据治理平台的数据清洗平台组件,显著提高了数据清洗改造的工作效能。(一)分析存量数据质量 对企业存量数据质量的分析包括数据一致性、完整性、合规性和冗余性等维度。原则上应借助专业的数据分析工具,对企业的全部数据https://baijiahao.baidu.com/s?id=1738204692952251565&wfr=spider&for=pc
4.数据清洗的重要性是什么?数据清洗的重要性是什么? 收藏 数据清洗是数据分析过程中至关重要的一环,它是指通过识别和纠正存在于数据集中的错误、不完整、重复或不一致的数据,以从原始数据中提取出高质量数据的过程。在大数据时代,数据清洗的重要性更加凸显,因为数据质量对于业务决策和预测能力有着直接的影响。https://www.cda.cn/bigdata/202600.html
5.数据清洗的重要性缺失值清理重复值清理在数据分析中我们重点研究的是数据,但是不是每个数据都是我们需要分析的,这就需要我们去清洗数据,通过清洗数据,这样我们就能够保证数据分析出一个很好的结果,所以说一个干净的数据能够提高数据分析的效率,因此,就数据清洗的重要性来说,数据清洗是一个很重要的工作,通过数据的清洗,就能够统一数据的格式,这样才能够减少https://www.fanruan.com/bw/zmljs
6.数据清洗的流程和重要性袋鼠社区博客 数据清洗的流程和重要性 数据清洗的流程和重要性 沸羊羊 发表于 2023-12-06 10:06 163 0 数据可视化怎么分析 大数据分析及可视化 可视化数据分析 数据分析与可视化 数据可视化和数据分析 如何进行高效的数据清洗 数据清洗工具有哪些 数据清洗 数据清洗的流程和重要性 https://www.dtstack.com/bbs/article/12661
7.清洁数据中心的重要性清洁数据中心的重要性 2024-11-29 23:30 关注 为什么需要清理数据中心? 灰尘、污垢、衣物或皮肤颗粒、锌和金属纤维等污染物可能会积聚在服务器、计算机和电缆上。另一种需要考虑的污染物是冷却系统皮带故障时释放的颗粒。高达80%的颗粒会通过鞋底进入数据中心,因此减少这些区域的人流量是一种很好的预防措施。虽然http://m.528045.com/article/c57afca84e.html
8.数据分析入门系列教程数据清洗数据清洗的重要性 要知道,一个好的数据分析师必定是一名数据清洗高手。在数据分析的过程中,数据清洗是最占用时间与精力的步骤。数据质量的高低,直接影响我们最后分析的结果,千万马虎不得。 数据质量的准则 那么既然数据清洗这么重要,我需要把原始数据处理到什么程度,才算是合格的待分析数据呢?如下我总结了一些业界的标https://developer.aliyun.com/article/929406
9.数据清洗对数据分析的重要性数据清理的重要性数据清洗通过处理异常值、重复值和错误值,确保数据真实性,提高分析效率并保证结果精准性。它是数据预处理的核心,对数据分析的可靠性和质量至关重要。筛斗数据团队通过先进工具优化这一过程。 摘要由CSDN通过智能技术生成 数据清洗对数据分析的重要性体现在以下几个方面: https://blog.csdn.net/weixin_44835050/article/details/137555654
10.一起聊聊数据标注那些事儿数据标注的重要性 在深度学习模型的测试过程中,数据集的选择尤为重要。在构建数据集的同时,需要注意做好数据的清洗和标注,高质量的数据标注往往能更好地提高模型训练的质量和预测的准确率,由此可见数据标注是极其重要的。 数据标注行业发展至今,已经不能仅仅满足于简单的拉框打点了,市场已经提出了更高的标注要求,以https://blog.itpub.net/70025739/viewspace-2931535/
11.数据清洗标准与规范(31页)数据清洗定义与重要性数据清洗定义1.数据清洗是指对原始数据进行审核、纠正、转换和整理,以提高数据质量、准确性和可靠性的过程。2.数据清洗的主要目的是将错误、异常、不完整和不一致的数据转化为可用的、高质量的信息。3.数据清洗是一个反复迭代的过程,需要不断对数据进行检查、修正和验证,以确保数据准确性和可靠https://m.book118.com/html/2023/1228/8035074044006021.shtm
12.数据清洗标准与规范.pptx数据清洗流程和基本原则数据清洗工具和技术介绍数据清洗实例展示与分析数据清洗常见问题及解决方案数据清洗管理与质量保证数据清洗未来发展趋势ContentsPage目录页数据清洗定义与重要性数据清洗标准与规范数据清洗定义与重要性数据清洗定义1.数据清洗是指对原始数据进行审核、纠正、转换和整理,以提高数据质量、准确性和可靠性的https://www.renrendoc.com/paper/298280227.html