图解数据分析数据清洗与预处理腾讯云开发者社区|数据清洗的主要处理方法有哪些_家电

在现实世界中，数据一般都是异构的、有缺失的、有量纲的。有些数据是从多个不同的数据源中获取的，这些异构数据，在各自的系统中都是正确无误的，只不过很有“个性”。

例如，有的系统中使用0和1，代表性别；而有些系统使用f和m代表性别。

所谓量纲，简单来说，就是说数据的单位。有些数据是有量纲的，比如身高；而有些数据是没有量纲的，例如，男女比例。不同评价指标往往具有不同的量纲，数据之间的差别可能很大，不进行处理会影响到数据分析的结果。

为了消除指标之间的量纲和取值范围差异对数据分析结果的影响，需要对数据进行标准化处理。就是说，把数据按照比例进行缩放，使之落入一个特定的区域，便于进行综合分析。

归一化是数据标准化中最简单的方式，目的是把数变为[0,1]之间的小数，把有量纲的数据转换为无量纲的纯数量。归一化能够避免值域和量纲对数据的影响，便于对数据进行综合分析。

举个简单的例子，在一次考试中，小明的语文成绩是100分、英语成绩是100分，单单从这考试成绩来评价，小明的语文和英语学的一样好。但是，如果你知道语文总分是150分，而英语总分只有120分，你还认为小明的语文和英语成绩是一样的吗？

对小明的成绩做简单的归一化：

采用离差归一化方法，公式是：y=(x-min)/range，这里设min=0，那么range=max-min=max，由此推算出小明的语文成绩是4/6，英语成绩是5/6。因此，判定小明的英语成绩好于语文成绩。还原到真实的场景中，各科的考题难度不尽相同，设班级中语文的最低分数是min语文=60，英语的最低分数是min英语=85，推算出小明的语文成绩是0.44=（100-60）/（150-60），英语成绩是0.43=（100-85）/（120-85），据此，可以判断小明的英语成绩稍差于语文成绩。

归一化的使得具有不同值域、不同量纲的数据之间具有可比性，使数据分析的结果更加全面，更接近事实。

异常值在统计学上的全称是疑似异常值，也称作离群点(outlier)，异常值的分析也称作离群点分析。

异常值分析是检验数据中是否存在不合常理的数据，在数据分析中，既不能忽视异常值的存在，也不能简单地把异常值从数据分析中剔除。重视异常值的出现，分析其产生的原因，常常成为发现新问题进而改进决策的契机。

在上图中，离群点（outlier）跟其他观测点的偏离非常大。注意，离群点是异常的数据点，但是不一定是错误的数据点。

在数据处理过程中，可以对数据做一个描述性分析，进而查看哪些数据是不合理的。常用的统计量是最大值和最小值，用来判断变量的取值是否超出了合理的范围。例如，客户年龄的最大值是199，该值存在异常。

[1]3σ原则

在介绍Z-score方法之前，先了解一下3σ原则——如果数据服从正态分布，在3σ原则下，异常值被定义为『一组测定值中，与平均值的偏差超过三倍标准差的值』。

在正态分布下，距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)<=0.003，属于极个别的小概率事件。在3σ原则下，如果观测值与平均值的差值超过3倍标准差，那么可以将其视为异常值。

[2]Z-Score

如果数据不服从正态分布，则可以用『与平均值的距离是标准差的多少倍』来描述，这个倍数就是Z-scor。

Z-Score以标准差（σ）为单位，去度量某一原始分数（X）偏离平均数（μ）的距离。Z-Score需要根据经验和实际情况来决定，通常把远离标准差3倍距离以上的数据点视为离群点。

Python代码的实现如下：

importnumpyasnpimportpandasaspddefdetect_outliers(data,threshold=3):mean_d=np.mean(data)std_d=np.std(data)outliers=[]foryindata_d:z_score=(y-mean_d)/std_difnp.abs(z_score)>threshold:outliers.append(y)returnoutliers（3）IQR异常检测四分位点内距（Inter-QuartileRange，IQR），是指在第75个百分点与第25个百分点的差值，或者说，上四分位数与下四分位数之间的差。

IQR是统计分散程度的一个度量，分散程度通过需要借助箱线图（BoxPlot）来观察。通常把小于Q1-1.5_IQR或者大于Q3+1.5_IQR的数据点视作离群点。

箱线图可以直观地看出数据集的以下重要特性：

使用Python实现，参数sr是Series类型的变量：

defdetect_outliers(sr):q1=sr.quantile(0.25)q3=sr.quantile(0.75)iqr=q3-q1#Interquartilerangefence_low=q1-1.5*iqrfence_high=q3+1.5*iqroutliers=sr.loc[(srfence_high)]returnoutliers2.2异常值处理在数据处理时，异常值的处理方法，需视具体情况而定。有时，异常值也可能是正常的值，只不过异常的大或小，所以，很多情况下，要先分析异常值出现的可能原因，再判断如何处理异常值。处理的异常值的常用方法有：

不是所有的数据都是完整的，有些观测值可能会缺失。对于缺失值，通常的处理方式是删除缺失值所在的数据行、填充缺失值、插补缺失值。

本教程系列的代码可以在ShowMeAI对应的github中下载，可本地python环境运行，能访问Google的宝宝也可以直接借助googlecolab一键运行与交互操作学习哦！

THE END

图解数据分析数据清洗与预处理腾讯云开发者社区

数据分析与创意文化产业利用数据做出明智决策考核试卷.docx

竞赛专题数据预处理如何处理数据中的坑？

数据清洗是什么，有哪些处理方法

常见的数据清洗方法有哪些?

数据清洗包括哪些内容数据清洗的方法包括哪些

舆情的“质变”——突发事件演化中变换阶段的意见领袖推演分析

网站数据分析（6）——缺失值异常值和重复值的处理在数据清洗过程中，主要处理的是缺失值异常值和重复值。所谓清洗，是对数

大数据预处理的方法有哪些?正保会计网校

2022年泾源县居民健康素养监测分析报告

机器学习实战机器学习特征工程最全解读

图解数据分析数据清洗与预处理腾讯云开发者社区

常见的数据清洗方法有哪些?

使用python实现数据筛查python

[Python从零到壹]十五.文本挖掘之数据预处理Jieba工具和文本聚类万字详解

运维工作个人总结15篇

数据处理的四种基本方法数据处理方法的应用场景聚合数据

论文目录与摘要

大数据基础数据采集与预处理(刘鹏《大数据》课后习题答案)泰初