机器学习之数据清洗

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2023.02.27湖南

对于记录重复数据,一般采用直接删除方式:

subset:用来指定特定的列,默认所有列1.1.2特征重复:一个或多个特征名不同,但是数据完全一样pandas提供了一个corr函数可以进行相似度的检测,当相似度为1,表示两列数据一模一样。

#dataframe查看某列缺省值和非缺省值的数量data['temp'].isnull().sum()data['temp'].notnull().sum()1.2.1删除法:当缺省的个数非常少时可以采用直接删除的方式

importnumpyasnpfromscipy.interpolateimportinterp1dx=np.array([1,2,3,4,5,8,9,10])y=np.array([2,8,18,32,50,128,162,200])linearinsert=interp1d(x,y,kind='linear')x2=[6,7]#需要插值的x2值不能超过x的范围y2=linearinsert(x2)print(y2)[76.102.]1.3异常值:数据处理中,异常值是指偏离明显的数值,有时候也成为离群点,异常值在进行数据分析的时候,分析结果容易产生偏差甚至错误,对于异常值,一般采用删除的方法。3δ原则和箱型图用于做初步的数据探查,如果经过检验数据服从正态分布,就使用3δ原则,否则使用箱型图。1.3.13δ原则如果数据服从正态分布,在3σ原则下,异常值被定义为组测定值中与平均值的偏差超过三倍标准差的值。在正态分布下,距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)<=0.003,属于极个别的概率事件。如果数据不服从正态分布,也可以远离平均值的多少倍标准差来描述这个原则有个前提条件:数据需要服从正态分布。

数据标准化主要是应对特征向量中数据很分散的情况,防止小数据被大数据(绝对值)吞并的情况。

另外,数据标准化也有加速训练,防止梯度爆炸的作用。

为什么要标准化/归一化?

提升模型精度:标准化/归一化后,不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。

加速模型收敛:标准化/归一化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。

如下图所示:左图表示未经过数据标准化处理的loss更新函数,右图表示经过数据标准化后的loss更新图。可见经过标准化后的数据更容易迭代到最优点,而且收敛更快。

哪些机器学习算法需要标准化和归一化:

1)需要使用梯度下降和计算距离的模型要做归一化,因为不做归一化会使收敛的路径程z字型下降,导致收敛路径太慢,而且不容易找到最优解,归一化之后加快了梯度下降求最优解的速度,并有可能提高精度。比如说线性回归、逻辑回归、adaboost、xgboost、GBDT、SVM、NeuralNetwork等。需要计算距离的模型需要做归一化,比如说KNN、KMeans等。

2)概率模型、树形结构模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、随机森林。

[0,1]标准化是最基本的一种数据标准化方法,指的是将数据压缩到0~1之间。

标准化公式如下

#代码如下defMaxMinNormalization(x):'''[0,1]normaliaztion'''x=(x-np.min(x))/(np.max(x)-np.min(x))returnx

Z-score标准化是基于数据均值和方差的标准化化方法。标准化后的数据是均值为0,方差为1的正态分布。这种方法要求原始数据的分布可以近似为高斯分布,否则效果会很差。如果不服从高斯分布,可以考虑将原始数据取log或者开根号,再检验是否符合高斯分布。

#代码实现defZscoreNormalization(x):'''Z-scorenormaliaztion'''x=(x-np.mean(x))/np.std(x)returnx

某些数据不是数值型的数据,如性别等,在进行计算的时候,往往需要数值型的数据,此时,需要将这些数据进行数值型的转换。哑变量也称虚拟变量,当自变量x为多分类时,会将每一类用一个变哑变量表示。例如x1表示坐飞机,x2表示做火车,x3表示自驾等,当x1=1表示坐飞机,x1=0表示不坐飞机。

在此需要注意的是3值以上的离散变量需要进行哑变量处理,并且增加截距项intercept,同时进行训练集和测试集的拆分。(目的是防止模型过拟合)

若针对训练数据已经做好了独热编码并建立了模型,而新增的预测数据或分类数据的类别变量未包含完整的类别。此时直接使用pd.get_dummies,会发现与训练集得到的结果不一样。例如:训练数据中季节列中春、夏、秋、冬都出现过,而在新的测试数据中只出现了春与夏,两者的结果会不一样。可以在预测数据中新增以下代码,详见原文。

'category',categories=['春','夏','秋','冬'])3.2对循环特征比如24小时的编码,用cos和sin进行编码hour_x=cos(2pihour/24)andhour_y=sin(2pihour/24)

对于回归评价:

MAE会忽略异常值,而RMSE会注意到异常值并得到没有偏差的预测。那么应该使用哪个指标呢?很遗憾,不存在确定的答案。如果你是一名供应链领域的数据科学家,你应该多做试验:如果使用MAE作为性能评估指标会得到很大偏差,你可能需要使用RMSE。如果数据集包含很多异常值,导致预测结果产生偏移,你可能需要用MAE。

还需要注意的是,你可以选择一个或多个评估指标(如MAE&bias)来计算预测的误差,然后用另一个指标(RMSE?)来对模型进行优化。

对于分类则集中使用AUC

importnumpyasnpfromsklearn.metricsimportmean_squared_error,mean_absolute_error,mean_absolute_errordefcheck_error(orig,pred,name_col='',index_name=''):'''orig:实际值pred:预测值'''bias=np.mean(orig-pred)mse=mean_squared_error(orig,pred)rmse=sqrt(mean_squared_error(orig,pred))mae=mean_absolute_error(orig,pred)mape=np.mean(np.abs((orig-pred)/orig))*100res_smape=2.0*np.mean(np.abs(pred-orig)/(np.abs(pred)+np.abs(orig)))*100error_group=[bias,mse,rmse,mae,mape,res_smape]serie=pd.DataFrame(error_group,index=['BIAS','MSE','RMSE','MAE','MAPE','SMAPE'],columns=[name_col])serie.index.name=index_namereturnserie4.6AUC-二分类和多分类模型,采用AUC作为评价指标fromsklearn.metricsimportroc_auc_score

roc_auc_score(y_true,y_score,*,average='macro',sample_weight=None,max_fpr=None,multi_class='raise',labels=None)

THE END
1.数据分析中的数据清洗方法策略数据清洗策略csdn而数据清洗后的数据则可以更有效的进行数据探索。本文重点讲解数据清洗的一些方法和注意事项。接下来,介绍数据清洗的三个重要部分:异常值判别、缺失值处理以及格式内容清洗。一.异常值判别 数据清洗的第一步是识别会影响分析结果的“异常”数据,然后判断是否剔除。异常值通常有以下几个表现:(1)缺乏完整性 完整性即https://blog.csdn.net/qq_22201881/article/details/142056502
2.数据清洗的概念常见问题及实践方法数据已成为企业和组织决策的重要依据,然而,原始数据往往存在各种质量问题,如缺失值、错误值、重复数据等,这些问题严重影响了数据分析的准确性和可靠性。数据清洗作为数据预处理的关键环节,能够有效地解决这些问题,为后续的数据分析和挖掘打下坚实的基础。 今天,让我们一起了解数据清洗的概念、常见问题及实践方法。 https://maimai.cn/article/detail?fid=1845410370&efid=UWMlhrm_pBYg7QMnqTj5OA
3.数据清洗涵盖了哪些方面?探索数据处理的全貌与重要步骤数据清洗是债券市场最近暴跌原因数据处理过程中不可或缺的重要步骤。随着数据量的增加和数据来源的多样化,原始数据往往包含大量的噪音、缺失值或异常数据,这些问题会严重影响数据分析的结果和结论的准确性。 通过数据清洗,可以有效地识别和处理数据中的各种问题,提高数据的质量和完整性。良好的数据清洗实践不仅能够确保数据https://www.zhaocaifu.cn/article/99497.html
4.数据清洗的概念常见问题及实践(数据清洗)数据已成为现代企业和组织决策的重要依据。然而,原始数据往往存在各种问题,如缺失值、错误值、重复数据等,这些问题会严重影响数据分析的准确性和可靠性。数据清洗作为数据预处理的关键环节,发现并纠正数据集中的错误和不一致信息,为后续的数据分析和挖掘打下坚实的基础。本文探讨数据清洗的概念、必要性、常见问题、实践方https://www.hypers.com/content/archives/5287
5.数据分析中的数据清洗指什么数据清洗是指在进行数据分析前,对原始数据进行处理,去除数据集中的错误、缺失、重复、不一致等问题,以确保数据的质量和准确性。它直接影响到后续分析结果的准确性和可信度。 一、数据清洗的步骤 1.确定数据清洗的目标和方法 在进行数据清洗前,需要明确数据清洗的目标和方法。根据数据类型、数据来源、实际情况等,选择https://www.linkflowtech.com/news/1071
6.数据分析怎样进行数据清洗?详细讲解数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。下面通过一张图描述数据清洗的基本流程,具体如图所示。 接下来针对图中数据清洗的基本流程进行详细讲解。 1.数据分析 http://go.itcast.cn/news/20220830/1830418088.shtml
7.数据分析工作总结(精选9篇)在日常的数据分析工作中,我经常需要对原始数据进行清洗和处理,以确保数据的准确性和一致性。我采用了多种数据清洗和处理方法,如去重、填充缺失值、数据类型转换等,确保了数据的完整性和可靠性。 数据可视化与分析: 数据可视化是数据分析的重要环节之一,我能够熟练地使用各种数据可视化工具,如Excel、Tableau等,将数据转化https://www.ruiwen.com/word/shujufenxigongzuozongjie.html
8.数据清洗的关键指标分析方法袋鼠社区数据清洗是数据分析过程中不可或缺的一步,它的目的是从原始数据中去除噪声、异常值和缺失值等,以提高数据的质量和准确性。在数据清洗的过程中,关键指标分析方法是非常重要的,它可以帮助我们更好地了解数据的特点和问题,从而选择合适的清洗方法和策略。本文将从以下几个方面介绍数据清洗的关键指标分析方法。 一、描述https://www.dtstack.com/bbs/article/12699
9.数据清洗发展趋势分析(30页)数据清洗发展趋势分析.pptx,数据清洗发展趋势分析数智创新 变革未来 数据清洗定义与背景介绍 数据质量问题和清洗必要性 数据清洗技术分类与特点 数据清洗工具与市场概况 数据清洗流程与步骤详解 数据清洗应用场景与案例 数据清洗挑战与未来发展 结论与建议目录页Contents Pahttps://max.book118.com/html/2023/1228/6043203100010025.shtm
10.数据分析常见术语绝对数:是反应客观现象总体在一定时间、一定地点下的总规模、总水平的综合性指标,也是数据分析中常用的指标。比如年GDP,总人口等等。 相对数:是指两个有联系的指标计算而得出的数值,它是反应客观现象之间的数量联系紧密程度的综合指标。相对数一般以倍数、百分数等表示。相对数的计算公式: https://meta.ecnu.edu.cn/76/b3/c35753a423603/page.htm
11.二手车数据分析excel篇1.7异常值处理:利用透视表把不符合条件的数据删除 以下为数据清洗后的结果,这样数据看上去就舒服多了 四、数据分析及简单的可视化展示 1、对整体数据的初步分析 1)变速箱类别 从整体数据进行分析,自动挡占比为93.55%,手动挡占比为6.45%。数据表明二手车市场中大部分是以自动挡为主的,只有少部分是手动挡; https://www.yoojia.com/ask/17-11354469621472179095.html
12.机器学习中的数据清洗与特征处理综述机器学习中的数据清洗与特征处理综述 收藏 机器学习中的数据清洗与特征处理综述 背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统http://api.cda.cn/view/8897.html
13.大数据应用导论Chapter1大数据技术与应用概述2、MongoDB:介于关系型数据库和非关系型数据库之间的产品,功能丰富;基于分布式文件存储数据库,由C++编写。 3、Redis:一个日志型、高性能Key-Value数据库,数据可以从主服务器向任意数量的从服务器同步。 2、数据清洗与分析 1、数据清洗 数据清洗:为了便于后续的处理和分析,对数据进行的质量诊断、数据整合、数据转换https://cloud.tencent.com/developer/article/1733234
14.大数据应用导论Chapter02大数据的采集与清洗大数据的处理主要是对数据的清洗,将其转化为可利用的数据目标,数据科学家约60%的时间都在进行数据清洗工作。 数据清洗是对数据进行转换、缺失处理、异常处理等。数据清洗可以提高数据的质量,提高数据分析的准确性。 数据清洗一般在大数据分析流程中的第三步: https://blog.51cto.com/14683590/5236225
15.数据分析的八个流程2、数据获取; 3、数据清洗; 4、数据整理; 5、描述分析; 6、将数据展现和输出; 7、洞察结论; 8、报告撰写。 1、目标的确定 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。 https://36kr.com/p/1491281074089859
16.如何处理和分析问卷数据?来看京东设计师的实战经验!问卷数据处理需要的工具 问卷数据清洗常用思路 问卷数据分析常用维度 问卷数据解读常用维度 本文整体结构 工具:该用什么来处理数据? 其实进行基础的描述性统计与交叉分析时,Excel 和 Spss 这两款工具都有相对应的功能可以实现,大家可以根据平时的使用习惯自行选择。 https://www.uisdc.com/questionnaire-data-analysis/
17.机器学习实战机器学习特征工程最全解读定量数据:指的是一些数值,用于衡量数量与大小。 例如高度,长度,体积,面积,湿度,温度等测量值。 定性数据:指的是一些类别,用于描述物品性质。 例如纹理,味道,气味,颜色等。 如下图是两类数据示例以及它们常见的处理分析方法的总结: 2.数据清洗 实际数据挖掘或者建模之前,我们会有「数据预处理」环节,对原始态的数据https://developer.aliyun.com/article/891367