数据清洗高剑忠

importpandasaspdimportnumpyasnpDataDF=pd.read_csv('C:/Users/jzgao/Desktop/ecommerce-data/data.csv',encoding="ISO-8859-1",dtype=str)#dtype=str,最好读取的时候都以字符串的形式读入,不然可能会使数据失真#比如一个0010008的编号可能会读取成10008#encoding="ISO-8859-1"--用什么解码,一般会默认系统的编码,如果是中文就用"utf-8"2.尝试去理解这份数据集

我们可以通过对数据集提问来判断这份数据能不能满足解答我们的问题,数据是否干净需不需要进一步处理,问题包括但不限于:

数据集多少数据?包含了什么字段?字段格式是什么?字段分别代表什么意义字段之间的关系是什么?可以用做什么分析?或者说能否满足了对分析的要求?有没有缺失值;如果有的话,缺失值多不多?现有数据里面有没有脏数据?尤其需要注意人工输入的数据,经常会出现名称写错,多输入空格等等的情况

3.下面我们就结合代码来看一下数据

1)调整数据类型:由于一开始用到了str来导入,打算后期再更换格式,需要调整数据类型。

2)修改列名:该数据的名称不易于理解,需要改列名

3)选择部分子集:因为有部分列在数据分析中不需要用到

4)可能存在逻辑问题需要筛选:比如UnitPrice为负

5)格式一致化:Description可能会存在有标点符号掺杂/大小写不一致/空格重复出现等问题

6)消灭空值:CustomerID、Description、Country和UnitPrice都出现了NaN值,需要去掉

loc这个代码有点像Excel里面的鼠标左键,可以随意拉动你需要的数据进行切片。

以逗号作为隔开的界限,左边为index,右边为column

还是Dataframe.loc这个函数的知识点。

由于loc还可以判断条件是否为True

1.大小写/去除空格

将数据中Descrption列中所有内容改成大写:

DataDF['Description']=DataDF['Description'].str.upper()DataDF.head()类似的代码还有字符串修改方法:

2.去除字符串符号去乱码

3.空格分割

DataDF.loc[:,'InvoiceDate']=splitSaletime(DataDF.loc[:,'InvoiceDate'])七、处理缺失值

python缺失值有3种:

1)Python内置的None值

2)在pandas中,将缺失值表示为NA,表示不可用notavailable。

3)对于数值数据,pandas使用浮点值NaN(NotaNumber)表示缺失数据。后面出来数据,如果遇到错误:说什么float错误,那就是有缺失值,需要处理掉

那None和NaN有什么区别呢:

None是Python的一种数据类型,

NaN是浮点类型

两个都用作空值

1.去除缺失值

#再一次提醒检查缺失数据DataDF.isnull().sum().sort_values(ascending=False)去除缺失值的知识点:

DataFrame.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)

#默认(axis=0)是逢空值剔除整行,设置关键字参数axis=1表示逢空值去掉整列#'any'如果一行(或一列)里任何一个数据有任何出现Nan就去掉整行,#'all'一行(或列)每一个数据都是Nan才去掉这整行DataDF.dropna(how='any')DataDF.dropna(how='all')#更精细的thresh参数,它表示留下此行(或列)时,要求有多少[非缺失值]DataDF.dropna(thresh=6)2.填充缺失内容:某些缺失值可以进行填充,方法有以下四种:

去除缺失值的知识点:

1)用默认值填充-df.fillna('')

我们应该去掉那些不友好的NaN值。但是,我们应该用什么值替换呢?这个时候可能要结合你对这个数据集的理解,看填充什么数据才是比较合适,以下是一下常用的方法。

在这个数据集中,我们大致判断CustomerID如果是不太重要的,就我们可以用使用""空字符串或其他默认值。

DataDF.Country=DataDF.Country.fillna('NotGiven')2)以同一指标的计算结果(均值、中位数、众数等)填充缺失值

平均值-df.fillna(df.mean())

使用数字类型的数据有可能可以通过这样的方法来去减少错误。

比如,这个案例里面的价格。如果用0或者"NotGiven"等来去填充都不太合适,但这个大概的价格是可以根据其他数据估算出来的。

DataDF.UnitPrice=DataDF.UnitPrice.fillna(DataDF.UnitPrice.mean())3)除此,还有一种常见的方法,就是用相邻的值进行填充,

print(DataDF)print(DataDF.UnitPrice.fillna(method='ffill'))#前向后填充print(DataDF.UnitPrice.fillna(method='bfill'))#后向前填充4)以不同指标的计算结果填充缺失值

关于这种方法年龄字段缺失,但是有屏蔽后六位的身份证号可以推算具体的年龄是多少。

THE END
1.数据分析中的数据清洗方法策略数据清洗策略csdn而数据清洗后的数据则可以更有效的进行数据探索。本文重点讲解数据清洗的一些方法和注意事项。接下来,介绍数据清洗的三个重要部分:异常值判别、缺失值处理以及格式内容清洗。一.异常值判别 数据清洗的第一步是识别会影响分析结果的“异常”数据,然后判断是否剔除。异常值通常有以下几个表现:(1)缺乏完整性 完整性即https://blog.csdn.net/qq_22201881/article/details/142056502
2.数据清洗的概念常见问题及实践方法数据已成为企业和组织决策的重要依据,然而,原始数据往往存在各种质量问题,如缺失值、错误值、重复数据等,这些问题严重影响了数据分析的准确性和可靠性。数据清洗作为数据预处理的关键环节,能够有效地解决这些问题,为后续的数据分析和挖掘打下坚实的基础。 今天,让我们一起了解数据清洗的概念、常见问题及实践方法。 https://maimai.cn/article/detail?fid=1845410370&efid=UWMlhrm_pBYg7QMnqTj5OA
3.数据清洗涵盖了哪些方面?探索数据处理的全貌与重要步骤数据清洗是债券市场最近暴跌原因数据处理过程中不可或缺的重要步骤。随着数据量的增加和数据来源的多样化,原始数据往往包含大量的噪音、缺失值或异常数据,这些问题会严重影响数据分析的结果和结论的准确性。 通过数据清洗,可以有效地识别和处理数据中的各种问题,提高数据的质量和完整性。良好的数据清洗实践不仅能够确保数据https://www.zhaocaifu.cn/article/99497.html
4.数据清洗的概念常见问题及实践(数据清洗)数据已成为现代企业和组织决策的重要依据。然而,原始数据往往存在各种问题,如缺失值、错误值、重复数据等,这些问题会严重影响数据分析的准确性和可靠性。数据清洗作为数据预处理的关键环节,发现并纠正数据集中的错误和不一致信息,为后续的数据分析和挖掘打下坚实的基础。本文探讨数据清洗的概念、必要性、常见问题、实践方https://www.hypers.com/content/archives/5287
5.数据分析中的数据清洗指什么数据清洗是指在进行数据分析前,对原始数据进行处理,去除数据集中的错误、缺失、重复、不一致等问题,以确保数据的质量和准确性。它直接影响到后续分析结果的准确性和可信度。 一、数据清洗的步骤 1.确定数据清洗的目标和方法 在进行数据清洗前,需要明确数据清洗的目标和方法。根据数据类型、数据来源、实际情况等,选择https://www.linkflowtech.com/news/1071
6.数据分析怎样进行数据清洗?详细讲解数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。下面通过一张图描述数据清洗的基本流程,具体如图所示。 接下来针对图中数据清洗的基本流程进行详细讲解。 1.数据分析 http://go.itcast.cn/news/20220830/1830418088.shtml
7.数据分析工作总结(精选9篇)在日常的数据分析工作中,我经常需要对原始数据进行清洗和处理,以确保数据的准确性和一致性。我采用了多种数据清洗和处理方法,如去重、填充缺失值、数据类型转换等,确保了数据的完整性和可靠性。 数据可视化与分析: 数据可视化是数据分析的重要环节之一,我能够熟练地使用各种数据可视化工具,如Excel、Tableau等,将数据转化https://www.ruiwen.com/word/shujufenxigongzuozongjie.html
8.数据清洗的关键指标分析方法袋鼠社区数据清洗是数据分析过程中不可或缺的一步,它的目的是从原始数据中去除噪声、异常值和缺失值等,以提高数据的质量和准确性。在数据清洗的过程中,关键指标分析方法是非常重要的,它可以帮助我们更好地了解数据的特点和问题,从而选择合适的清洗方法和策略。本文将从以下几个方面介绍数据清洗的关键指标分析方法。 一、描述https://www.dtstack.com/bbs/article/12699
9.数据清洗发展趋势分析(30页)数据清洗发展趋势分析.pptx,数据清洗发展趋势分析数智创新 变革未来 数据清洗定义与背景介绍 数据质量问题和清洗必要性 数据清洗技术分类与特点 数据清洗工具与市场概况 数据清洗流程与步骤详解 数据清洗应用场景与案例 数据清洗挑战与未来发展 结论与建议目录页Contents Pahttps://max.book118.com/html/2023/1228/6043203100010025.shtm
10.数据分析常见术语绝对数:是反应客观现象总体在一定时间、一定地点下的总规模、总水平的综合性指标,也是数据分析中常用的指标。比如年GDP,总人口等等。 相对数:是指两个有联系的指标计算而得出的数值,它是反应客观现象之间的数量联系紧密程度的综合指标。相对数一般以倍数、百分数等表示。相对数的计算公式: https://meta.ecnu.edu.cn/76/b3/c35753a423603/page.htm
11.二手车数据分析excel篇1.7异常值处理:利用透视表把不符合条件的数据删除 以下为数据清洗后的结果,这样数据看上去就舒服多了 四、数据分析及简单的可视化展示 1、对整体数据的初步分析 1)变速箱类别 从整体数据进行分析,自动挡占比为93.55%,手动挡占比为6.45%。数据表明二手车市场中大部分是以自动挡为主的,只有少部分是手动挡; https://www.yoojia.com/ask/17-11354469621472179095.html
12.机器学习中的数据清洗与特征处理综述机器学习中的数据清洗与特征处理综述 收藏 机器学习中的数据清洗与特征处理综述 背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统http://api.cda.cn/view/8897.html
13.大数据应用导论Chapter1大数据技术与应用概述2、MongoDB:介于关系型数据库和非关系型数据库之间的产品,功能丰富;基于分布式文件存储数据库,由C++编写。 3、Redis:一个日志型、高性能Key-Value数据库,数据可以从主服务器向任意数量的从服务器同步。 2、数据清洗与分析 1、数据清洗 数据清洗:为了便于后续的处理和分析,对数据进行的质量诊断、数据整合、数据转换https://cloud.tencent.com/developer/article/1733234
14.大数据应用导论Chapter02大数据的采集与清洗大数据的处理主要是对数据的清洗,将其转化为可利用的数据目标,数据科学家约60%的时间都在进行数据清洗工作。 数据清洗是对数据进行转换、缺失处理、异常处理等。数据清洗可以提高数据的质量,提高数据分析的准确性。 数据清洗一般在大数据分析流程中的第三步: https://blog.51cto.com/14683590/5236225
15.数据分析的八个流程2、数据获取; 3、数据清洗; 4、数据整理; 5、描述分析; 6、将数据展现和输出; 7、洞察结论; 8、报告撰写。 1、目标的确定 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。 https://36kr.com/p/1491281074089859
16.如何处理和分析问卷数据?来看京东设计师的实战经验!问卷数据处理需要的工具 问卷数据清洗常用思路 问卷数据分析常用维度 问卷数据解读常用维度 本文整体结构 工具:该用什么来处理数据? 其实进行基础的描述性统计与交叉分析时,Excel 和 Spss 这两款工具都有相对应的功能可以实现,大家可以根据平时的使用习惯自行选择。 https://www.uisdc.com/questionnaire-data-analysis/
17.机器学习实战机器学习特征工程最全解读定量数据:指的是一些数值,用于衡量数量与大小。 例如高度,长度,体积,面积,湿度,温度等测量值。 定性数据:指的是一些类别,用于描述物品性质。 例如纹理,味道,气味,颜色等。 如下图是两类数据示例以及它们常见的处理分析方法的总结: 2.数据清洗 实际数据挖掘或者建模之前,我们会有「数据预处理」环节,对原始态的数据https://developer.aliyun.com/article/891367