避坑指南：如何选择适当的预测评价指标？程序员评测|预测准确率计算方法_算命

出品|AI科技大本营（ID：rgznai100）

【导语】因为不存在一个适用于所有情况的评价指标，所以评估预测精度（或误差）就变成了一件不是那么容易的事情。只有通过试验，才能知道哪个性能评估指标适用于当前情况。在这个过程中，你会发现每个指标都可以避开某些陷阱，但同时也容易掉进其他陷阱。今天，我们就把几大预测评价指标一一为大家分析对比，从而对它们的适用情况更了解。

先了解一下预测的准确率和偏差：

当然，如下图所示，我们想要的预测结果是既有高准确度，又没有偏差。

下面，会讲到五种指标，从它们的定义开始，然后再对比它们的适用与不足。

0、Error(误差）

首先对error进行定义，即预测值减去实际值。如果预测值高于实际值，那么误差为正，若低于实际值，则误差为负。

预测性能的评估指标有哪些？

1、Bias

Bias的定义为误差的平均值。此处，n为历史的时刻数，即预测值与实际值的个数。

由于一个正误差可能会抵消掉另一个负的误差，因此预测模型可能会得到很低的bias，而精度却很低。很明显，只使用bias不足以对预测精度进行评估。

2、MAPE

平均绝对百分误差（MAPE，MeanAbsolutePercentageError）是评估预测精度的最常用指标之一。MAPE为每个绝对误差的和除以实际值。实际上，它是误差百分率的平均值。

MAPE是个很奇特的性能评估指标。由公式可以看出，MAPE用每个误差值除以实际值，所以会产生倾斜：若某个时刻的实际值很低，而误差很大，就会对MAPE的值产生很大影响。因此，对MAPE的优化会导致奇怪的预测结果，很可能会使预测值低于实际值。

3、MAE

绝对平均误差（MAE，MeanAbsoluteError）是一个很好的预测评估指标。如名字所描述的，它是绝对误差的平均值。

MAE的第一个缺点是，它没有考虑到实际值的平均数。如果有人告诉你某个预测结果的MAE为10，你无法知道这个结果是好是坏。如果实际值的平均数为1000，当然这个预测精度是很不错的，但如果实际值平均为1，这个预测的精度实在太低了。为了解决这个问题，可以用MAE除以实际值的平均数，得到一个百分率：

MAPE/MAE混淆——很多人会使用MAE的公式，却把它当成MAPE。很多人会对此存在混淆。当我和别人讨论预测误差时，我会要求其明确解释预测误差是如何计算的，以免发生混淆。

4、RMSE

均方根误差（RMSE，RootMeanSquaredError）是一个看似不合理却很实用的指标，稍后我们会进行详细解释。它的定义为误差平方平均值的方根。

和MAE一样，RMSE没有考虑到实际值的大小范围。我们同样可以定义一个RMSE%，如下：

实际上，许多算法（特别是机器学习算法）都是基于均方误差的（MSE，MeanSquaredError）：

MSE被许多算法使用，因为它计算速度快，且比RMSE更容易操作。但它没有考虑到原误差值（因为误差被做了平方计算），可能导致指标无法关联到原始误差值的大小范围。因此，我们不常用它作为评估预测模型精度的指标。

MAEvsRMSW：误差权重

与MAE相比，RMSE对每个误差值不是平等对待的，它会给大的误差更大的权重。这意味着一个过大的误差值会让RMSE值很差。

现在我们对比两个预测结果，这两个结果存在的唯一差别是最后一个预测值：预测#1比实际值低7个单位，预测#2低了6个单位。

两次预测结果的性能评估指标如下：

有趣的是，只把最后一次预测的值改变了1个单位，就导致整体的RMSE值降低了6.9%（从2.86到2.66），但MAE值只降低了3.6%（从2.33到2.25）。很明显，RMSE把更大的注意力放在最大的误差值上，而MAE给每个误差值相同的权重。你可以自己尝试降低某个误差值，会发现对RMSE几乎不会产生影响。

接下来你会看到关于RMSE更有趣的特性。

RMSE的预测实例

刚刚我们介绍了每个性能评估指标的定义（bias、MAPE、MAE、RMSE），但还不清楚它们使用在模型上的差异。有人可能认为用RMSE代替MAE，或者用MAE替代MAPE，不会有太大差异，但事实上不是这样的。

我们来看个简单的例子。假设某个产品每周的销量始终比较低且平稳，偶尔会有一笔大订单（可能受促销活动等影响）。下面是我们观察到的最近几周的销量情况：

对于该产品的销量，我们虚构三个不同的预测结果。第一个预测每天销量为2，第二个预测每天销量为4，第三个预测每天销量为6，如下图所示：

我们看看每个预测的bias、MAPE、MAE和RMSE结果：

预测#1基于MAPE表现最好，预测#2基于MAE表现最好，预测#3基于RMSE和bias表现最好（但基于MAE和MAPE表现最差）。下面我们来看每个预测结果的组成：

中位数vs平均数——数学最优化

这里会涉及一些数学知识，如果你对这些公式不理解，不要在意。你可以略过这部分，直接跳到RMSE和MAE的结论部分。

1、RMSE

首先来看RMSE：

实际上，我们可以用它的简化版，即MSE：

如果你的预测模型把MSE当作指标，它会将其最小化。我们可以通过使其导数为零，来将数学函数最小化：

若要使预测最优化，模型会趋于让整体预测值与实际值相等。

2、MAE

接下来，我们对MAE做同样的分析：

或者

以及

这意味着

若要使MAE最优化（如，使其导数为零），预测模型要让预测值高于实际值的次数等于低于实际值的次数。换句话说，我们希望找到一个值可以把数据集一分为二，这也正是中位数的定义。

3、MAPE

遗憾的是，MAPE的导数不具备直接明了的特性。我们可以简单认为，MAPE会优先给出较低的预测值，因为当实际值比较低时，预测误差会被分配较高的权重。

结论

综上所述，在任何模型上，对RMSE的最优化是试图找到平均值，而MAE的最优化是让预测偏高的次数与偏低的次数相等。不得不承认，MAE和RMSE在数学本质上存在较大的差异。一个瞄准中位数，另一个瞄准平均数。

MAE还是RMSE？如何选择？

我们不能说瞄准中位数好或者瞄准平均数好，这不是一个非黑即白的问题。每项技术都存在优点和隐患，下面我们会讨论这个问题。只有经过试验，才能知道哪项技术适用于当前的数据集。你甚至可以同时选择RMSE和MAE。

Bias

对于许多实例，你会发现实际值的中位数与平均数不同。可能发生的是，实际值中存在一些峰值，导致整体分布产生偏移。这些偏移的分布在供应链行业常常发生，因为定期的促销活动或客户的批量采购。这会使实际的中位值比平均数低，如下图所示：

这说明预测模型在使MAE最小化时会产生偏差，然而在使RMSE最小化时不会产生偏差（因为它瞄准的是平均数）。这确实是MAE的主要缺陷。

异常灵敏度

如我们所讨论的，RMSE会为大的误差值分配高权重，同时也要付出代价：对异常点过于敏感。我们看下面的例子：

若一个序列的中位值为8.5，平均值为9.5。我们已经知道，如果模型使MAE最小化，我们会预测出中位数（8.5），这样整体会比平均数低1个单位（bias=-1）。之后你可能会选择对RMSE做最小化，预测平均值来避免这种情况。

不过，如果我们突然观察到一个值为100：

中位数仍然为8.5，并没有发生改变，但平均值变成了18.1，在这种情况下，我们不希望预测结果趋近于平均数，而是重新使用中位数。

一般来说，对于存在异常值的情况，中位数比平均数的鲁棒性更强。在供应链产业中，这一点尤为重要，因为我们要面对很多异常点。

对于异常点来说，鲁棒性总是一个好的特性吗？答案是否定的。

无序序列

糟糕的是，在异常点存在的情况下，中位数的鲁棒性可能会对无规律的序列产生非常不好的影响。

试想我们对一个客户出售产品，该产品的利润很高，客户似乎每三个星期中会有一个星期下订单。遗憾的是，客户的购买行为没有任何规律。我们可以观察到其平均数为33，但而中位数为0。

如果我们让预测模型瞄准中位数（0），我们得到的总绝对误差为100（MAE为33），总平方误差为10000（RMSE为58）。

很明显，对于没有规律的序列，MAE是一个比较差的性能评估指标。

MAE会忽略异常值，而RMSE会注意到异常值并得到没有偏差的预测。那么应该使用哪个指标呢？很遗憾，不存在确定的答案。如果你是一名供应链领域的数据科学家，你应该多做试验：如果使用MAE作为性能评估指标会得到很大偏差，你可能需要使用RMSE。如果数据集包含很多异常值，导致预测结果产生偏移，你可能需要用MAE。

还需要注意的是，你可以选择一个或多个评估指标（如MAE&bias）来计算预测的误差，然后用另一个指标（RMSE？）来对模型进行优化。

THE END

避坑指南：如何选择适当的预测评价指标？程序员评测

避坑指南：如何选择适当的预测评价指标？程序员评测

第26节：盘点准确率与销售预测准确度的计算方法

调度考核细则范文

两个预测模型比较，再教你一招IDI模型预测IDI

现代气象预报业务体系基本建立

分类评估指标：准确率精确度召回率和F1详解概述在构建分类系统时，我们需要一种方法来评估分类模型的性能，我们希望

研究人员用AI死亡计算器预测丹麦人寿命，模型准确率78%未来2%澎湃新闻

GRAPES

机器学习算法如何提高预测准确率–PingCode

月度CPI增速的高频数据预测方法

蛋白质二级结构预测－人工神经网络方法（图）

需求预测准确率（ForecastAccuracy）中分母是实际值好还是预测值好？

统计中分类算法总结