在这篇博客中,我们将会着重讲一下如何在应用机器学习项目中使用统计学方法的十个例子。
这将证明统计学知识对于成功解决预测建模问题至关重要。
1.问题架构
也许预测模型问题中最困难的一点就是问题的架构。
这包括了问题类型的选择,例如是回归还是分类,也许还有这个问题的输入和输出的结构及类型。
问题的架构并不是一直都很清晰,对于某个领域的新手,可能需要对这个领域中的观察值进行一些深入探索。
而对于这个领域的专家,他们可能会以墨守成规的角度去看问题,从而受困其中,他们也需要从多角度去思考数据,才能有所收获。
统计方法在问题的架构阶段有助于对数据的探索,其中包括:
2.数据理解
数据理解意思是对变量的分布和变量之间的关系有一个更详细的理解。
这些知识其中一部分来自于这个领域的专业知识,或者需要专业知识去解释。然而,专家和新手都会从处理领域内的真实观察值中获益。
用在理解数据的统计学模型的两类主流分支是:
3.数据清洗
一个领域中的观察值往往存在些瑕疵。
虽然数据是数字化的,但存在一些过程会降低数据的精确性,反过来,后续用到数据的过程及模型也会受其影响。
例如:
识别和修复这些问题数据的过程也叫做数据清洗。
统计方法应用于数据清洗中例子有:
4.数据选择
减小这些元素的数据范围的操作对于做出预测值是很有用的,这个过程叫做数据选择。
应用在数据选择的两种统计学方法:
5.数据准备
数据一般不会直接拿来建模。
为了改变数据的形状或结构,使它更适用于选定的问题架构或学习算法,需要对数据进行必要的转化。
数据准备也会用到统计模型,例如:
6.模型评估
预测模型问题的一个重要部分是对学习方法进行评估。
对模型的能力的评估主要是对未经过训练的数据进行预测。
通常,训练过程和评估预测模型的规划过程叫作实验设计,这是统计方法的一个子领域。
作为实现实验设计的一部分,为了对可利用的数据做最合理的利用同时也为了评估模型的能力,统计学方法被用来重采样一个数据集。这两个目的代表了统计模型的子领域。
7.模型配置
给定的机器学习算法通常有一套使学习方法能够适应特定问题的超参数。
超参数的配置通常是经验性的,而不是由分析得出的。这需要大量的实验,以评估不同超参数值对模型性能的影响。
两种统计学的子领域的方法可以用于对不同超参数配置产生的结果进行解释和比较,它们是:
8.模型选择
给定一个预测建模问题,在众多机器学习算法中可能有一个算法最适合该问题。
选择一种方法作为解决方案的过程称为模型选择。
这可能涉及到项目参与者的自身条件以及用于评估问题的方法的估计技能能否对其给出详细解释。
与模型配置一样,可以使用两类统计方法来解释不同模型的估计技能,并用于模型选择。他们是:
9.模型表示
展示最终模型的一个环节包括展示模型的估计技能。
估计统计领域中的方法可以通过容忍区间和置信区间对机器学习模型的评估能力的不确定性进行量化。
10.模型预测
最后,我们可以使用最终的模型来对我们不知道其输出的新数据进行预测。
作为预测的一部分,量化预测的置信度非常重要。
就像模型表示的过程一样,我们可以使用估计统计领域的方法来量化这种不确定性,例如置信区间和预测区间。
总结
在本教程中,你已经了解了统计方法在整个预测建模项目过程中的重要性。