统计中分类算法总结

对于很多做统计的人员来说,对统计中的算法知道的不是很全面,下面就对统计中分类算法做个总结。

主要有两种:

l归一化处理

应用场景:归一化处理基本上是所有分析计算之前必做的一个预处理.

l标准化处理

应用场景:标准化处理主要用在聚类分析中.

主要有四种常见的检验方式:

一)连续型指标的检验

lT检验

应用场景:判断二分类变量对一连续型指标的显著影响

前提条件:没有,就是针对二分类变量的

原理:判断不同水平间目标连续指标的均值是否相等

例子:性别对某APP访问量的影响

应用场景:判断多分类变量对一连续型指标的显著影响

前提条件:

1)多分类变量

b)方差相等(方差齐次)

检验流程:

例子:各年龄段对某APP访问量的影响

应用场景:在某一连续变量影响下,判断多分类变量对目标连续指标的显著影响

1)另一连续变量对目标连续型指标有影响

2)多分类变量

4)连续变量与分类变量无交互作用

如何判断两者之间的交互作用:

1)分别做它们与目标连续指标的回归分析,观察斜率是否相同.如果相同,则无交互作用;否则,有交互作用

2)直接根据AOV(Y~X1*X2)作回归分析,观察综合因素X1*X2对应的概率P是否小于0.05(默认).即T检验对应斜率等于0的概率.如果小于0.05,则有交互作用;否则,无交互作用.

二)非连续型指标的检验

l卡方检验

应用场景:对比分类变量在不同水平下的转换率数据是否有显著差异

1)目标变量为分类变量(例如:网站用户数可分为下订单数与非下订单数)

原理:判断目标分类变量在不同水平下差异.这里具体的可以参考卡方公式

例子:网站改版前后对订单的转换有无影响(订单的转换率的显著变化)

说的定性就是把连续型的数据转换成分类型的数据(即离散化或者叫水平化);定量处理就是把分类型的数据转换成连续型的数据.这个问题在之前,个人一直以为:定性处理很简单,不就是简单地”分段”嘛!但是定量怎么处理呢下面有讲,这里着重提一下,主要通过把”某个变量取某个水平值”的问题转换成”某个变量等于某个水平值的概率”的问题.这就实现了量化处理。定性与定量的处理一般都是针对特定的算法做的,比方说,在要用回归的方式来解决分类问题,而且此时解释变量中有分类型的变量,此时就需要做定量处理;又比方说,在某些不支持输入变量为分类型的变量的算法中,需要先做定性处理后才能使用该算法。

需要注意以下几个细节:

1)各系数对应的P值

意义:对应的系数是否有意义.小于0.05(默认),则有意义;否则,无意义

原理:通过T检验,判断各系数等0的概率.即等于0与不等0两水平下,对目标连续指标是否有显著的影响.小于0.05(默认),则有显著影响(不可为0);否则,无显著影响(可以为0)

2)调整后的卡方值,即AdjustedR-squared

意义:整体系数对目标变量的关联性

原理:通过卡方检验,判断整体模型的有效性

3)F检验对应的P值

意义:检验整体模型的参数等于0的概率

原理:通过F检验判断整体模型的有效性

l模型的修订

1)UPDATE方法

主要通过增加变量或者减少变量,或者对目标变量做变换(取对数或者指数等).这是一种人为修订模型的方法.

2)STEP

主要通过减少变量的方法来使各变量都能通过T检验.这是一种自动修订模型的方法.

l分类型变量在回归中的处理

主要通过将分类型变量的水平取值转换成”是否等于某水平取值”的模式.可以理解为取某个水平值的概率.

几个常用的回归方法:

主要是多变量回归

lLogic回归

大概步骤:

1)目标变量的LOGIC转化.必要时把解释变量中的分类型也转化成连续型的.

2)模型的修订(其中的线性部分)

3)预测和性能的衡量

l回归树CART

回归树主要问题在剪枝上.通过观察每次分裂项,选择合适的分裂次数即可.CP值的大小基本上代表了结点的混合程度,理论上随着分裂,CP的值是越来越小的,XERR(预测的误差)是先减小后增大,XSTD代表预测误差的标准差.一般选择CP的原则是,选择最小XERR值正负对应的XSTD范围内,最小的XERR对应的项.

几种常见的分类方法:

它适合解决分类问题,但也可以解决回归问题。即目标变量可以是分类型的也可以是连续型的。

原理:通过计算与哪K个样本点最近,就把目标点划分到K个点中目标分类最多的分类.因为它要跟每个点做计算,因此计算量相当大.

它适合处理多分类问题,输入可以是连续型的变量也可以是分类型的变量.属于规则性的分类方法。

这种方法在WEKA里面有非常成熟的一套实现.在R中可以把相应的包给IMPORT进来后,直接调用.

2)CART前面已经提到后,它在这里扮演的角色就是处理分类问题了.它使用GINI来评估分裂条件的贡献大小.属于二叉树,相比C4.5.关于它的剪枝方法不多介绍了.

原理:目标是计算X条件下取Y各水平值时的条件概率,选取其中条件概率最大的Y水平值。由于对于特定的X取值,本质上就是从训练集中取XY联合概率分布中最大值。

适合处理二分类问题

原理:

优势:

1)在高维空间中特别有效,但维度最好不要超过样本数。

2)计算时只使用支持向量,内存利用率高

劣势:

1)维度数如果过高(远远超过样本量)效果就不好

它们主要是通过把简单的分类器,加上权重后组合成一个大的分类器,然后用它来处理分类问题.

步骤:

1)用户指定一个迭代次数,初始化每个实例的权重。

2)选择简单分类器。每次迭代中,遍历每个属性的每个取值及每个条件(大于或者小于),根据它对样本实例进行划分,满足条件即为1;不满足条件即为-1。最后取误差率最小的组合条件作为简单分类器。

3)根据简单分类器的误差计算出该分类器的权重,然后再更新每个实例的权重。

4)将该简单分类器加入到组合分类器中,统计当前组合分类器的误差个数。如果误差个数达到0或者指定的下限值,就停止迭代。

可以解决多分类问题

注意:

二分类器与多分类器本质上没有明显的界限,可以重复利用二分类器来解决多分类问题,所以分类问题不必在分类方法上有所顾虑,注重的是分类的性能问题.

l最简单的方式是直接观察分类器在测试集中的预测准确率大小

l由于交叉验证需要做大量的计算,耗费大量的CPU,因此在机器能够承受的情况下,

通过交叉验证的方式来取平均预测准确率的大小,从而判断分类器的性能。

补充:

1)ROC曲线是FPR(预测为正例,但为错误判断的概率)与TPR(预测为正例,而且也为正确判断的概率)曲线。FPR=FP/(TN+FP)表示负例当中被错误地预测为正例的比例;查全率或者叫recall,TPR=TP/(TP+FN)表示正例当中被正确地预测为正例的比例。

2)AUC面积指的是ROC曲线下的面积,即ROC曲线与X轴(FPR)围成的面积。面积越大,分类器的性能越好。

THE END
1.预测准确率怎么计算股票频道如何计算预测准确率 在财经领域,预测准确率是一个重要的参考指标,用于衡量分析师、机构或投资者在市场分析中的预测能力。本文将介绍如何计算预测准确率,以帮助您更好地了解这一指标。 预测准确率的计算方法 预测准确率的计算方法是通过以下几个步骤进行的: https://stock.hexun.com/2024-03-28/212350220.html
2.销售预测准确率的计算智造前沿月销售预测的准确率只要将每周的数量相加来计算。 二、销售预测准确率的意义 1. 通过跟踪和持续提高销售预测准确率,增强对需求的监控,从而减少对供应链带来剧烈波动,降低运营成本,提高供应的稳定性,提高客户满意度。 2. 作为设置安全库存的重要依据。 三、提高销售预测准确率的方法 https://www.wethinks.com/shows/26/315.html
3.预测准确率怎么计算理想股票技术论坛想了解如何计算预测准确率?本文介绍了预测准确率的计算方式,帮助你评估预测模型的准确性。了解预测准确率的计算方法,可以提高对股票市场的预测能力。 ,理想股票技术论坛https://www.55188.com/tag-07009520.html
4.一种煤层突出危险性区域预测临界值的确定方法及系统与流程目前,国内尚未形成一套系统的确定区域突出危险性预测临界值的方法和系统。根据相关经验,区域突出危险性预测临界值试验常通过煤巷掘进进行试验考察确定,但试验过程中采用顺层钻孔测定原始瓦斯压力,则存在封孔难度大、测试时间长、成本费用高、压力测定不准确等不利条件,因此在生产实际过程中常将瓦斯含量8m3/t(地质构造带http://mip.xjishu.com/zhuanli/47/202210741774.html
5.2024清宫表完整版分享,掌握计算方法准确率高达100%现如今,虽然重男轻女的观念基本上很少了,但依旧有很多宝妈在怀上后想知道胎儿的性别。最常见的就是用清宫表来预测生男生女,即根据虚岁,以及怀孕月份来推算怀的是男孩还是女孩。不过需要注意的是,这类方法往往准确率不高,在50%左右。建议最好通过医学手段检测,可信度更高。 https://www.shengbb.net/wenda/d68cb54b4b4d798f0b1e.html
6.模型测试集上准确率(ACC)精确率precision召回率recallAUC评估指标本文探讨了混淆矩阵的基本概念,包括TP、TN、FP和FN,以及准确率、精确率、召回率和F1分数的计算方法。重点介绍了AUC(ROC曲线下的面积)在评估模型性能中的作用,通过实例演示如何使用sklearn库进行准确率和AUC的计算。 摘要由CSDN通过智能技术生成 参考: https://zhuanlan.zhihu.com/p/530885866?utm_id=0 混淆矩阵https://blog.csdn.net/weixin_42357472/article/details/123889415
7.预测准确率计算公式实际上是这样的,预测准确率,一般来讲有两种算法,一种是21131-误差绝对值/预测,一种是1-误差绝对值https://iask.sina.com.cn/jxwd/6ctz0REKLl5.html?ivk_sa=1024320u
8.性能评价范文12篇(全文)(2) 试验结果计算包括主蒸汽流量计算、发电热耗率、汽耗率、汽水损失率等指标的计算。 (3) 试验结果修正 对于试验时汽机偏离设计运行条件的情况, 应对试验结果进行修正。按照ASME PTC6A-2000标准方法, 对试验热耗率进行热耗修正, 得到最终的热耗率。所有修正根据电厂业主、制造厂与试验单位协商确定的修正曲线或修https://www.99xueshu.com/w/ikeynsi4e0rm.html
9.生男生女计算公式预测男女准确率超高(快收藏)举例说明:女性怀孕农历月份为7月,女性虚岁年龄为25岁。根据以上生男生女公式计算为:49+7-25+19=50;结果为双数生女宝。 4、68+女性怀孕的农历月份-怀孕时女性的虚岁=结果;结果为单数生男宝,结果为双数生女宝。 举例说明:女性怀孕的农历月份9月,怀孕时女性的虚岁28岁。根据以上生男生女公式计算为:68+9-28=49;https://www.snsnb.com/zixun/60792-1.html
10.基于机器学习的足球比赛结果预测与方法研究.docx粗略的统计数据如进球、射门和助攻仍然是分析球员表现的最常用的方法;这样的预测方法所得到的结果准确性低于以机器学习方法为基础的分析预测准确率,机器学习预测模型在各个领域的应用充分的证明了这一点。事实证明,本文并非是单纯的在预测足球比赛,而是“事后诸葛亮”,通过对比赛各项数据统计与比赛结果进行分析,找出对https://max.book118.com/html/2022/0613/5122144000004242.shtm