数据分析——建模分析基本流程

日常的数据分析工作中,除了基本的拆解法、对比法做分析外,也经常需要用到模型的方法来做预测或者分类,这里会介绍建模分析的基本流程及常见处理方法。

在拿到数据后,不能着急立刻开始清洗数据或者模型训练,而是先了解数据(除建模分析外,其他的数据开发也要做这一步),这样才能避免后期的踩坑,否则十有八九是要复工的。

那“了解数据”这一环节,具体要了解哪些东西呢?

在初步了解数据后,需要做一些数据预处理的行为。

第一步就是对缺失值处理,一般根据样本量多少以及缺失比例,来判断是“宁缺毋滥”的删除,还是缺失值填充。

具体处理的思路可以是这样的:

缺失值填充的方法有:

处理完缺失值后,需要做异常数据处理。

对于很多模型,如线性回归、逻辑回归、Kmeans聚类等,需要计算不同特征的系数,或者计算样本距离。

这种情况下,如果不同特征的数值量级差的特别大,会严重影响系数和距离的计算,甚至这种计算都会失去意义;所以在建模前必须要做的就是要去量纲,做标准化处理。

当然有些模型是不需要做数据标准化处理的,如决策树、随机森林、朴素贝叶斯等。

当前最常用的数据标准化处理方法有:

1)最小—最大规范化

(x-min)/(max-min),将其规范到[0,1]之间

2)z值规范化

(x-均值)/标准差,将其规范为均值为0,标准差为1;

如果这种情况,受离群点影响比较大的话,可以用中位数代替均值,用绝对标准差代替标准差。

还需要注意的是,如果样本分布非常有偏的话,可以先做box-cox变换,将其往正态分布变换后再标准化。

在做完基本的数据清洗以及特征变换后,需要做的是特征选择,一般做特征选择的原因是:

影响:

1)影响模型的稳定性,而且影响模型的解释。

举个例子,假设消费支出=0.3*收入,这样可能的模型输出的是:

消费支出+收入1.3*收入1.6*收入-消费支出

同样的数值输出,不同的公式计算,会非常模型解释和稳定性的。

2)线性回归模型,会导致最小二乘估计无法计算系数,即使可计算系数方差也很大,即1)中提到的不稳定。

怎么识别:

计算每个特征被其他特征拟合的情况,如特征j,被其他特征线性拟合的决定系数为R2;通常拟合越好,决定系数就越大且最大可达到1。

所以,当方差膨胀因子过大,说明此特征存在多重共线性。一般大于10会认为有比较强的多重共线性问题。

怎么解决:

不同的模型和应用场景下特征筛选方式不同:

1)特征子集选择法

特征子集选择法有向前逐步选择法和向后逐步选择法:

a)向前逐步选择

具体方法就是从0个特征开始,一个一个逐步从剩余特征中添加使得模型拟合误差最小的特征,在添加过程中得到模型拟合最优的特征组合。

b)向后逐步选择

和向前逐步选择类似,只是反过来了,让所有特征入模,再一步一步剔除效果不好的特征,从而达到最优。

2)正则化压缩无意义特征的系数

比较好用的方法是lasso。

一般的线形回归我们只会希望它的误差平方和最小,但是lasso的目标函数在原有目标函数后面加了一项系数惩罚项。这样让目标函数最小,可以实现无意义特征的系数为0,从而实现特征选择。

3)PCA降维

这个是将原有有一定线性关系的特征线形组合成新的相互独立的特征,所以不适合原有特征已经相互独立的情况。

以上就是数据建模的前期准备流程,做完这些内容就可以开始模型训练,对模型结果进行预测分析啦,而这部分则是不同模型会有不同的具体处理方法。

总之,模型训练前的数据分析、数据清洗以及特征选择非常重要,甚至他们是决定建模是否成功的关键因素,所以这部分工作一定要做细做准确。

THE END
1.www.stats.gov.cn/zsk/snapshoot?reference=33e2b9cdb6391521c5知识库 知识分类:|知识来源: |发布日期:https://www.stats.gov.cn/zsk/snapshoot?reference=33e2b9cdb6391521c53328be6244e40b_E0674EF1D588ECF83FBFA8A59D967D14
2.机器学习数据预处理—统计分析方法条件概率权重信度系数核心原理是增加样本数较少类别中的部分样例达到类别平衡。过采样法因增加样例而增大了时间开销,但要注意防止过拟合。过采样法的代表性算法是SMOTE。 3 连续值离散化 连续属性离散化(Discretization of Continuous Attributes)是指将连续数据分段为一系列离散化区间,每个区间对应一个属性值。连续属性离散化的主要原因: https://blog.csdn.net/mnwl12_0/article/details/137429779
3.常用的数据分析方法常见问题常用的数据分析方法有:1、对比分析法;2、分组分析法;3、结构分析法;4、留存分析法;5、交叉分析法;6、漏斗分析法;7、矩阵分析法;8、象限分析法;9、趋势分析法;10、指标分析法;11、综合评价分析法。其中“对比分析法”是对数据进行比较以分析数据间的差异,包括静态比较和动态比较。 1、对比分析法 即比较分析https://m.php.cn/faq/572257.html
4.大数据分析五步法数据分析五步法是啥大数据分析五步法 数据分析五步法是啥 数据驱动的时代,无论你的工作内容是什么,掌握一定的数据分析能力,可以帮助你更好的认识这个世界,更好的提升工作效率。 数据分析流程主要分为五个关键环节:明确数据分析目的、明确数据源及数据口径、数据处理、数据分析、输出。https://blog.51cto.com/u_16213595/7028099
5.数据分析的三大方法是什么指数平滑法是一种用于预测未来数据趋势的方法。通过指数平滑法可以了解数据的趋势和波动,进而作出相应的决策。例如,企业可以通过指数平滑法预测产品销售量在未来一段时间内的趋势和波动,进而制定相应的生产计划和销售策略。 3.回归分析 回归分析是一种用于预测未来数据和因素之间关系的方法。通过回归分析可以了解数据和因素https://www.linkflowtech.com/news/2717
6.数据分析的八种方法数据分析的八种方法1.指标对比分析法 指标对比分析法,又称比较分析法——是统计分析中最常用的方法。是通过有关的指标对比来反映事物数量上差异和变化的方法。有比较才能鉴别,单独看一些指标,只能说明总体的某些数量特征,得不出什么结论性的认识; https://www.cda.cn/view/14770.html
7.《谁说菜鸟不会数据分析(入门篇)》,读书笔记萱草yy1定义:数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 2目的:把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。 3分类:数据分析可划分为描述性数据分析,探索性数据分析和验证性数据分析。描述性分析是日常工作中主要的数据分析,有对比分析法、平https://www.cnblogs.com/xuancaoyy/p/5816757.html
8.「数据分析」十六种常用的数据分析方法分享三、逻辑回归分析法。 「数据分析」十六种常用的数据分析方法分享,该模型要求变量为连续的正态分布变量,且自变量与变量呈线性关系,而逻辑回归模型对变量的分布没有要求,通常用于变量的离散。 类别: 逻辑回归模型有条件和非条件两种,条件Logistic回归模型与非条件Logistic回归模型的区别在于参数报价是否使用了条件概率,其它https://www.dtstack.com/news/7370
9.学会看数据流,向高级诊断师进发3、因果分析法 指对相互之间有因果关系(或有联系)的数据间响应情况和响应速度进行对比判断。如压缩机的工作,并不是直接由AC开关直接控制,而是ECU对多种信号进行评判后再确定是否让压缩机进行工作。 4、关联分析法 指对彼此有关联的数据进行分析,对比后来查看故障是否存在。如电子油门踏板的位置信号与节气门位置传感器https://www.yoojia.com/ask/17-12215014079437050870.html
10.数据分析的概念与方法(3)数据处理 数据处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。这个过程是数据分析整个过程中时间占比最大的,也在一定程度上取决于数据仓库的搭建和数据质量的保证。 数据处理主要工作包括数据清洗、数据转化、数据抽取、数据合并、数据计算等处理方法,利用这些方法将各种原始https://www.jianshu.com/p/d236c74f6e62