带你读《增强型分析:AI驱动的数据分析业务决策与案例实践》之二:大数据探索及预处理

丰富的线上&线下活动,深入探索云世界

做任务,得社区积分和周边

最真实的开发者用云体验

让每位学生受益于普惠算力

让创作激发创新

资深技术专家手把手带教

遇见技术追梦人

技术交流,直击现场

海量开发者使用工具、手册,免费下载

极速、全面、稳定、安全的开源镜像

开发手册、白皮书、案例集等实战精华

为开发者定制的Chrome浏览器插件

现在几乎人人都在谈论大数据和人工智能,然而应用大数据和人工智能技术的基本前提是数据。不论数据的拥有方还是数据分析解决方案及工具的提供方,其终极目标都是“通过数据分析,从数据中找出洞见并应用于实际场景中带来价值”。数据探索、数据预处理等工作是进行数据分析的首要工作。不论是采用大数据的工具还是采用相对较小的数据集上的数据挖掘的工具,模型的构建都需要经过对数据不断地探索、选择和加工合适的字段、采用合适的算法并训练模型等过程。数据探索的目的是了解数据的状态,数据预处理则是为了将数据加工为更有价值的形态。数据分析者应当具有很好的意识,能够感知数据的价值,具备数据加工能力。

大多数情况下,数据分析的过程必须包括数据探索的过程。数据探索可以有两个层面的理解:一是仅利用一些工具,对数据的特征进行查看;二是根据数据特征,感知数据价值,以决定是否需要对别的字段进行探索,或者决定如何加工这些字段以发挥数据分析的价值。字段的选取既需要技术手段的支撑,也需要数据分析者的经验和对解决问题的深入理解。

表2-1均值、中位数、众数的例子

表2-2四分位的例子

图2-1箱形图及IQR

图2-2Skewness的含义

图2-3众数、均值及中位数在不同分布下的比较

表2-3通过中位数和均值的差异来判断分布的偏斜情况

图2-4峰态的例子

表2-4连续型变量数据探索示例代码的运行结果

表2-5分类型变量数据探索示例代码的运行结果

表2-6BankMarketingDataSet的字段说明

图2-5折线图的示例

图2-6箱形图的示例

图2-7柱状图示例

图2-8双变量关系探索的示例(X轴是age变量,Y轴是balance变量)

数据的重要性在大多数情况下都超过了算法的重要性。数据预处理是数据分析过程中的一个重要步骤。多年以来,人们在数据质量上的持续投入大幅减少了越界、缺失、不一致等问题。但是,数据质量问题仍然存在。数据分析者应当对数据质量时刻保持警惕,因为质量很差的数据是很难得到有用的分析结果的。既然数据质量问题不可避免,那么处理它们是数据预处理的工作之一。数据预处理的完整工作应当包括数据清洗、数据集成、数据变换和数据归约处理。

图2-10数据空白值填充的示例

图2-11分别执行数据预处理的3个条件,查看触发条件

对于连续型变量,如果该变量的取值的个数小于设定阈值(默认是5),那么将该变量转化为有序型分类变量。对于有序型分类变量(数值类型),如果该变量的类型的个数大于设定阈值(默认是10),那么将该变量转化为连续型变量。1.连续型变量的变换对于连续型变量,为了保证数据中不同的字段保持同样的尺度(这样既可以防止某些字段在建模过程中发生溢出,又可以保证每一个字段在模型中的权重相同),我们需要进行一些尺度变换的操作。分箱(binning,又称离散化)是将连续型数据转换为分类型变量,转换的目的是提高变量的解释性。(1)尺度变化为了使数据尺度一致,可以对原始数据进行中心化、标准化、归一化、Z-score变换、最小-最大值变换等。在表2-7中我们列举了典型的数据转换方法。(2)分箱变换对于一些连续型变量,从业务和数据特点上考虑,需要将连续型数据变为分类型数据,可以进行binning操作,常用的分箱变换方法如表2-8所示。分箱技术的方法有很多种,比较常用的有下面的3种方式:

表2-7典型的数据转化方法

表2-8分箱变换方法

图2-12采用中位数对连续型变量进行划分

图2-13很多情况下,低价值的客户总是占多数

图2-14按照80%-20%的划分能够将高价值的客户显著区分出来

表2-93种分箱策略的结果示例

图2-15源数据分布及3种分箱策略的结果示例

表2-10分类型变量的变换

表2-11分类型变量的变换为dummy字段

表2-12员工个人信息的示例

图2-16模型的残差分布

图2-17由一个衍生字段代表原来10列数据的信息

图2-18因变量的分布

图2-19因变量做对数转变后的分布

图2-20数据采样的一般过程

图2-21典型的采样类型

概率抽样适用的场景是采用样本数据来体现整体的特征,包括以下几种:

非概率抽样都是按照抽样者的意愿来进行的,典型的方式有以下几种:

图2-22两个样本、总体的关键指标的分布

在探索了数据的基本统计信息后,我们掌握了数据的分布特征等信息;接着又对数据做了预处理,过滤了缺失值和离群值,转变和处理了数据类型,提高了数据的质量。本节进一步对数据从字段上进行加工,从尺度、分布上进行变换,满足不同的业务和建模需要,变换后的字段更能满足模型需要,由此引出了本节的衍生指标的加工。

图2-23一个SAS决策树算法生成的模型结果

从实际业务指导的角度来看,分类型变量的易用性远远大于数值型变量。从模型算法的角度来看,采用数值型的指标会显著提高模型的性能。针对“富裕客户”这样的指标值,在建模时为模型性能考虑,最好是将其代表的数值直接使用而摈弃分类型变量。

THE END
1.数据清洗的重要性及步骤4. 数据发布:最后,将清洗后的数据发布到指定的数据库或数据仓库中,以供后续分析和应用。四、结论数据清洗是提高数据质量的关键步骤之一,它可以帮助我们获得更准确、更完整的数据,从而为我们的决策提供更好的支持。通过了解和掌握数据清洗的步骤和方法,我们可以更好地应对各种数据质量问题,为我们的工作和生活带来更多https://aiqicha.baidu.com/qifuknowledge/detail?id=10201303570
2.大数据什么是数据清洗?(附应用嘲及解决方案)数据清洗是一个耗时的过程,尤其是在数据量大和数据质量差的情况下,需要投入大量的时间和资源。 通过使用专业的数据处理工具,如FineDataLink,可以有效地解决数据清洗的痛点,提高数据处理的效率和质量。FineDataLink提供了多种可视化算子和功能,如新增计算列、数据过滤、数据关联等,帮助用户快速完成数据清洗和处理,无需编https://blog.csdn.net/oOBubbleX/article/details/140350709
3.大数据应用导论Chapter02大数据的采集与清洗大数据的处理主要是对数据的清洗,将其转化为可利用的数据目标,数据科学家约60%的时间都在进行数据清洗工作。 数据清洗是对数据进行转换、缺失处理、异常处理等。数据清洗可以提高数据的质量,提高数据分析的准确性。 数据清洗一般在大数据分析流程中的第三步: https://blog.51cto.com/14683590/5236225
4.感悟与反思┃“数据清洗工作”的总结与反思——席义博当时告诉大家把每遇到一次报错,都做一系列整理工作,包括问题描述、截图、出错的源文件处理等等,之后还涉及到类似“断点续传”的操作,如果每次出错都重新来过,数据清洗的效率将大大降低。这么过了几天,对大家的报错情况基本都有数儿了,我虽说不清楚为什么,但至少能清楚地描述出“当如何如何时”就会有“报错”,也许http://www.sxmu.edu.cn/bdcd/info/1097/1393.htm
5.数据治理知识分享—数据元主数据参考标准指标数据业务术语07、数据清洗 依据标准对存量主数据开展清洗工作,清洗过程除了基于质量规则对已有不规范数据进行属性补充、规范化填写以外,更重要的是识别重复的数据、对重复数据进行去重及合并,数据层面主要通过新旧编码映射的方式确保旧编码的业务正常开展。 08、数据共享 存量数据的共享,主要通过初始化导入方式开展;增量数据的共享,主要https://www.asktempo.com/news/industry-information/1461.html
6.数据清洗工程师岗位职责(工作内容,是做什么的)数据清洗工程师是做什么的?有前途吗?工资待遇怎样?94.7%的岗位拿¥8-30K/月。招聘要求高吗?学历本科最多占89.7%,经验3-5年最多占48.6%。数据清洗工程师岗位职责怎么写?为你汇总德特赛维技术有限公司,东莞艾特信息科技有限公司,北京学果科技有限公司等公司的工作描述https://www.jobui.com/gangwei/shujuqingxigongchengshi/duty/
7.什么是数据清洗?面对常见的数据清洗问题,有哪些解决方法?答案是——数据清洗。简单来说,数据清洗就是对数据进行审查和校验的过程,目的是删除重复信息、纠正存在的错误,并提供数据一致性。如何有效进行数据清洗,走好数字化转型的每一步,是企业要思考的重要命题。 一、数据清洗的意义. 众所周知,在数据分析报告中,未经清洗的数据很可能会导致错误的结论,降低报告的可信度。而https://www.fanruan.com/bw/doc/180930
8.什么是数据清洗数据清洗,顾名思义就是把"脏"的"洗掉",指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或http://www.chinaedg.com/e/wap/show.php?classid=85&id=260&style=0&bclassid=69&cid=85
9.数据分析的流程是怎样的数据分析主要有八个流程:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、将数据展现和输出;7、洞察结论;8、报告撰写。 1、目标的确定 只有弄清分析的目的是什么?才能准确定位分析因子,提出有价值的问题,提供清晰的思路。 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来https://www.linkflowtech.com/news/626
10.数据分析是什么工作内容数据分析是什么工作内容 数据分析的工作内容包括:数据体系的搭建、数据清洗、数据预处理、可视化展示。(1)数据体系的搭建:每一个产品的功能都需要通过数据来监控这个功能的使用情况,包括用户量的变化情况使用的体验情况,业务的健康情况,业务的机会点等。所以在公司或者企业内部都会建立起一套相对应的叫做数据体系的东西https://36kr.com/p/dp1517207321827335
11.牛笔了,我用Python画了一个生日蛋糕,成功赢得了女友的芳心!数据库连接可用于连接众多数据库以及访问通用数据库接口,可用于数据库维护、管理和增、删、改、查等日常操作。 04 数据清洗转换 数据清洗转换主用于数据正式应用之前的预处理工作。 05 数据计算和统计分析 数据计算和统计分析主要用于数据探查、计算和初步数据分析等工作。 https://www.jianshu.com/p/59a8e49b8cf0