爱数科案例青少年社交网络数据的清洗和预处理腾讯云开发者社区

首先,我们读取原始数据,并查看各字段基本情况。

缺失值(missingvalue)是指现有数据集中某个或某些属性的值是不完全的。由于大部分机器学习模型无法处理缺失值,在数据建模前需要填补或者剔除缺失值。对于连续变量age,我们使用该列的均值进行填充,结果如下表所示。

对于离散变量gender,我们使用“未知”进行填充,结果如下表所示。

我们进一步用箱线图查看friends列是否存在异常值。箱线图中,小于Q_1-1.5\timesIQRQ11.5×IQR或大于Q_3+1.5\timesIQRQ3+1.5×IQR的数据点被视为异常值。

上图中绿色的数据点即为异常值,可以看到大于100左右即为异常值。

异常值(outlier),也称为极端值,是数据集中某些数值明显偏离其余数据点的样本点。因为线性回归模型等机器学习模型对异常值较为敏感,对异常值进行处理有利于提高建模的鲁棒性。

接下来,我们用直方图查看friends列数据分布情况。

由图可知,friends变量整体呈右偏,可能存在异常值。

通过数据筛选组件,我们可以剔除掉大于Q_3+1.5\timesIQRQ3+1.5×IQR的数据点,结果如下表所示。

剔除异常数据后,我们通过箱线图和直方图查看friends列的数据分布情况。

从上图来看,与异常值处理前相比,friends列中数据的异常值大大减少了,实验误差也会减少很多。

数据标准化指的是将数据按比例缩放的预处理操作。当我们希望消除量纲的影响、帮助模型收敛、适应模型假设时,就可能需要进行数据标准化。

在本案例中,我们将介绍比较常用的Z-Score标准化和MinMax标准化。下面我们对数据集中friends列做Z-Score标准化,使得处理后的数据均值为0,标准差为1。

下面我们对数据集中friends列做Min-Max标准化,使得处理后的数据取值分布在[0,1][0,1]区间上。

一般而言,我们需要将数据集中的非数值变量编码为数值才能用于模型训练。本案例将介绍两种常用的编码方法:数字编码与OneHot编码。我们先对数据集中的gender列进行数字编码。

通过数字编码,gender的三个取值被分别编码为0、1、2。

下面我们对数据集中的gender列进行OneHot编码。

在一些数据建模情景下,我们可能需要将连续变量转化为离散变量,即进行离散化处理。常见的离散化方法包括等距离散化和等频离散化。

我们先对friends列进行等距离散化处理,通过这种方法离散化处理后每个区间宽度相同。

可以看到friends列中数据被等距分为4组,取值分别为0、1、2、3。

然后我们对friends列进行等频离散化处理,通过这种方法离散化处理后落在每个区间内的数据点数量相同。

可以看到friends列中数据被等频分为4组,取值分别为0、1、2、3。

THE END
1.python数据清洗案例keyerror:'sepallengthpython数据清洗案例 获取数据: 检查缺失值 首先第一步,我们先检查一下数据集中是否存在空值,可以用pandas中的isnull、nonull、info方法来检查,我们都来试一遍 data.isnull() 1 可以看到,因为数据太多,没有办法全部找出来,这个时候可以用到sum方法来进行统计每一列有多少个缺失值https://blog.csdn.net/weixin_44941795/article/details/100836001
2.独家为数据分析而清洗数据——Python的21个案例和代码(下)本文介绍了为数据分析而准备的数据清洗的另外11个Python案例及代码。数据清洗是识别和纠正错误以及数据集不一致性的过程,以便于数据可以进行分析。在此过程中,数据专家可以更清楚地了解他们的业务中正在发生的事情,提供任何用户都可以利用的可靠分https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247635700&idx=1&sn=c882563ba5a67b47e357af3d16bd1391&chksm=e8117d3d3879282281cabd67a5e3d93be0250a7862942d19801d29b5983732c5b1f81c939238&scene=27
3.数据清洗案例分析袋鼠社区数据清洗案例分析 - 在大数据时代,数据已经成为企业的重要资产。然而,原始数据往往存在许多问题,如缺失值、异常值、重复值等,这些问题会影响数据分析的准确性和可靠性。因此,数据清洗成为了数据处理过程中不可或缺的一步。本文将通过一个实际的数据清洗案例,详细介绍https://www.dtstack.com/bbs/article/12691
4.数据清洗案例数据清洗案例: 1、导入各种包 2、将表格导入系统:这里使用了将一个表格的多个sheet同时导入 # 将一张表里的3个sheet都导入系统 table=[pd.read_excel("/Volumes/台电酷闪/数据分析/python学习/202010Python数据清理/meal_order_detail.xlsx",sheet_name=i) for i in range(0,3)] https://www.jianshu.com/p/84d02414b04e
5.求数据清洗的案例分析资料本人第一次做数据清洗,虽然之前有学过一些数据清洗的方法,但是仍然对手头噪音很大,数量很多的数据感觉到无从下手。现征求各位高手看过的好的关于数据清洗的案例书或其他资料,或者关于如何对大量原始数据一步步分析建模的,要求讲的越具体越好。 谢谢大家帮忙! https://bbs.pinggu.org/jg/huiji_huijiku_3640882_1.html
6.MapReduce综合应用案例—招聘数据清洗MapReduce是Hadoop的核心功能之一,掌握它对学习Hadoop至关重要。 Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。 任务关卡 第1关数据清洗 https://hnjdzy.educoder.net/shixuns/2lvmz89x/challenges
7.数据分享基于PythonHadoop零售交易数据的Spark数据处理与E案例数据集是在线零售业务的交易数据,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并使用Echarts做数据可视化。由于案例公司商业模式类似新零售,或者说有向此方向发展利好的趋势,所以本次基于利于公司经营与发展的方向进行数据分析。 https://developer.aliyun.com/article/1493639
8.书单想学PowerBI吗?来看看这些书吧!本书是Power BI 快速入门工具书,笔者将Power BI 的知识点做了系统整理,并以案例的方式呈现出来,使读者学习起来更轻松。全书共7 章,包括Power BI Desktop 初体验、数据清洗的革命、数据统计和呈现、建立表关联、交互式分析、使用DAX 函数、数据可视化等,其中重点介绍了Power BI 在数据清洗和数据可视化方面的应用。 http://www.broadview.com.cn/article/419989
9::侯晓焱邢永杰:我国证人证言排除的刑事司法实务观察1.数据清洗的考量因素 数据整理中误入的不属于当事人申请排除非法证据的数据主要包含几种情况: 一是文书记载了法院告知被告人享有申请回避、非法证据排除等权利,文书故此被命中,但案件本身不涉及非法证据问题的争议。二是文书在评析某项具体证据时,主动宣布该项证据中不存在非法证据排除的情形。三是二审裁判文书中记载http://iolaw.cssn.cn/fxyjdt/201907/t20190722_4936908.shtml
10.聊聊如何清理数据案例和步骤数据清理包括发现和解决潜在的数据不一致或错误以提高数据质量。错误是任何不反映所测量的真实值(例如,实际重量)的值(例如,记录的重量)。在此过程中,审查、分析、检测、修改或删除“脏”数据以使数据集“干净”。数据清理也称为数据清洗。一 为什么数据清理很重要在定量研究中,收集数据并使用统计分析来回答研究问题。http://www.360doc.com/content/23/0301/09/78237952_1069924279.shtml
11.大数据应用导论Chapter02大数据的采集与清洗2、Python清洗案例 # 载入必要库 # numpy是一个数值计算库,能够快速的进行矩阵计算 importnumpyasnp # pandas基于numpy的一种数据分析工具,能够快速的进行数据分析、可视化 importpandasaspd # matplotlib是一个2D绘图库,能够跨平台的快速绘制图表 importmatplotlib.pyplotasplt https://blog.51cto.com/14683590/5236225