UberAI研究院深度解构ICLR2019最佳论文「彩票假设」！|用ai算彩票中奖概率_彩票

首先，他们证明了剪枝后的网络性能良好。经过深度剪枝的网络（剪掉了95%到99.5%的权重）与规模较大的未经剪枝的网络相比，性能并没有下降。此外，仅仅被适度剪枝的网络（剪掉了50%到90%的权重）的性能往往还优于未剪枝的竞争模型。

其次，除了这些让人眼前一亮的结果，剩余网络的结构和权重的特征同样有趣。通常情况下，如果你使用经过训练的网络，通过随机权重对其重新进行初始化，然后重新训练它，其性能将与之前大致相当。但是对于精简的骨架彩票（LT）网络来说，这个特性并不成立。只有当网络重新回到其初始状态时（包括使用的特定初始权重），网络才能很好地训练。用新的权重重新初始化会导致训练效果不佳。正如Frankle和Carbin的研究所指出的那样，剪枝掩模的特定组合（对于每个权重来说，显示是否删除该权重的0-1值）和掩模之下的权重构成了一个在更大的网路中找出的幸运子网络。或者正如最初的研究中所命名的那样，这是一个通往胜利的「彩票」模型。

我们发现这个例子很有趣，因为所有人都不知道为什么会出现这样的结果。LT网络是如何使它们表现出更好的性能？剪枝掩模和初始权重集合为何如此紧密的耦合，而重新初始化的网络较难训练？为什么直接选择较大的权重是选择掩模的有效标准？其它创建掩模的标准是否也有效呢？

奇怪而有效的掩模

在开始调查研究时，我们观察了一些需要解释的奇怪现象。在训练LT网络时，我们观察到许多重置的、用掩模处理过的网络的准确率可能明显高于初始化。也就是说，对未经训练的网络应用特定掩模会得到一个部分工作的网络。

图1：未经训练的网络随机运行的结果（例如，如图所示，在MNIST数据集上的准确率为10%），如果这些网络被随机初始化、或随机初始化并被随机地进行掩模处理。然而，应用LT掩模会提高网络的准确率，使其超过随机的情况。

我们将具备「可以在不训练底层权重的情况下，立即生成部分工作的网络」的特性的掩模称为超级掩模（Supermask）。

如图1所示，在随机初始化网络和带有随机掩模的随机初始化网络中，权重和掩模都不包含任何关于标签的信息，因此其准确性不一定能比随机的情况更好。在具有LT「largefinal」掩模的随机初始化网络中，得到优于随机情况的性能并非不可能，因为掩模确实是在训练过程中产生的。但这还是有些出乎意料，因为从训练回传到初始网络的唯一信息是通过「0-1」掩模传输的，并且应用掩模的标准只是选择有大最终值的权重。

掩模运算是需要训练的，为什么「0」很重要？

那么，为什么我们认为，只需应用LT掩模就可以大大提高测试的准确率呢？

LT论文中实现的掩模运算过程将执行两个操作：将权重设置为零，以及冻结这些权重。通过确定这两个部分中的哪一个会提高训练好的网络的性能，我们还发现了未经训练网络的这种独特性能的底层原理。

为了分开上述两个因素，我们进行了一个简单的实验：我们复现了LT迭代剪枝实验，其中网络权重在交替的「训练/掩模/重置」的循环中被掩模处理，但我们还尝试了其它的处理方式：将「零掩模」处理的权重冻结为其初始值，而不是将其冻结为零。如果零不是特殊的，那么这两种方法得到的性能应该相似。我们遵循Frankle和Carbin（2019）的做法，在CIFAR-10数据集上训练三个卷积神经网络（CNN），Conv2，Conv4和Conv6（具有2/4/6卷积层的小型CNN，这与LT论文中使用的相同）。

下方图2为实验结果，通过剪枝操作（或者更准确地说：「冻结为一定的值」）将左侧的未剪枝的网络修改为右侧的修剪后的网络。水平黑线表示原始未剪枝网络五次运行的平均性能。此处和其他图中的不确定性代表五次运行中的最小值和最大值。蓝色实线代表使用将剪枝后的权重设置为零并冻结它们的LT算法训练的网络。蓝色虚线则代表使用没有将剪枝权重冻结成其初始值的LT算法训练的网络：

图2：当在CIFAR-10数据集上测试上述的三个卷积神经网络时，我们发现具有被冻结为其初始值的剪枝后权重的网络的准确率比具有被设置为零的剪枝后权重的网络的准确率明显要低一些。

我们看到，当权重被特意冻结为零而不是随机初始值时，网络的表现更好。对于通过LT「finallarge」标准进行掩模处理的这些网络，当它们具有小的最终值时，将权重设置为零似乎是非常好的选择。

那么为什么零是理想的值？一种假设是，我们使用的掩模标准倾向于将那些趋向于零的权重通过掩模处理为零。为了验证这个假设，让我们考虑一种新的冻结方法。我们在前两个实验之间插入另一个实验：对将要被冻结的任意权重，如果它在训练过程中趋向于零，我们会将它冻结为零；而如果它逐渐远离零，那么我们将它冻结为其随机初始值。结果如下面的图3所示：

图3：根据权重在训练期间移动的方向，有选择性地将权重冻结为其初始值或零，会得到比将所有权重一律初始化为零或其初始值更好的性能。

因此，我们发现对于某些诸如「largefinal」的掩模标准，掩模是在训练中得出的：掩模操作倾向于将权重朝着它们在训练时移动的方向移动。

这同时解释了为什么存在「超级掩模」，并间接说明其它的掩模标准可能会得到更好的「超级掩模」（如果它们能优先将在训练中趋向于为零的权重掩模为零）。

其它的掩模标准

现在我们已经对原始的LT掩模标准「largefinal」表现出色的原因进行了探索，那么我们不妨想想还有什么其它的掩模标准也会有很好的性能。「largefinal」标准保留具有较大最终值的权重并将其余权重设置为零。我们可以将这种剪枝标准和许多其它的标准视为将二维（wi=初始权重，wf=最终权重）空间划分为对应于应该保持的权重（「1」掩模）与应该剪枝的区域（「0」掩模）。工作原理如图5所示：

在上一部分中，我们展示了一些证据来支撑下面的假设：将已经趋向于零的权重设置为零会得到很好的网络性能。该假设表明，如果他们遵循这一基本规则，这对其它的掩模标准可能也有效。其中一个此类掩模标准是：优先保持那些移动得离零最远的权重，我们可以将其写为评分函数|wf|-|wi|的形式。我们将此标准称为「magnitudeincrease」，并将其与其他标准一起表示为图6中的条件控制示例，如下所示：

图6：从LT论文中出现的「largefinal」标准开始，从左到右依次为本研究中考虑的八个掩模标准。我们给出了用来指代各种方法的名称以及将每个（wi，wf）对投影到一个分数上的公式。我们保留具有最高分数（彩色区域）的权重，并且对具有最小分数（灰色区域）的权重进行剪枝。

图7：两个网络的准确率与剪枝百分比的测量结果，MNIST数据集上的全连接网络（左图）和CIFAR-10数据集上的Conv4网络（右图）。表明多个掩模标准——「largefinal」，「magnitudeincrease」，以及另外两个标准，确实优于黑色的随机剪枝基线。在Conv4网络中，「magnitudeincrease」的性能提升大于其他掩模标准;星号标记出了「largefinal」和「magnitudeincrease」之间的差异在p=0.05的水平上具有统计显着性的情况。

通常而言，我们观察到，那些倾向于保留具有较大最终值的权重的方法能够发现高性能子网络。

真正起作用的是符号！

我们已经探索了各种方法，用来选择应该对哪些权重进行剪枝以及应该将剪枝后的权重设置为何值。现在，我们将考虑应该将保留下来的权重设置为何值。特别是，我们想研究Frankle和Carbin（2019）的工作中一个有趣的观察结果，该结果表明，当你将其重置为原始初始值时，经过剪枝的骨架LT网络可以很好地进行训练。但是，当你随机重新初始化网络时，训练的性能会降低。

为什么重新初始化导致LT网络训练不佳？初始化过程中的哪些因素很重要呢？

为了找到问题的答案，我们评估了一些重新初始化了的变体。

您当前使用的浏览器版本过低，导致网站不能正常访问，建议升级浏览器

THE END

UberAI研究院深度解构ICLR2019最佳论文「彩票假设」！

奖金$1048576=22?美金的人工智能奥数AIMO进步奖开赛澎湃号·湃客澎湃新闻

阿裡巴巴全球數學競賽首次向AI開放最高可得1萬美元獎金經濟·科技

AI开始尝试预测死亡界面新闻·科技

靠ChatGPT买彩票，还中奖了？

人工智能投足彩1周中30场学会3点提高竞彩中奖率网易红彩

A股“彩票龙头”突发！聘任她为副总经理，负责AI业务，曾是知名媒体记者？股价刚强势涨停

UberAI研究院深度解构ICLR2019最佳论文「彩票假设」！

人工智能中美PK：海量用户是中国独特优势