训练网络像是买彩票?神经网络剪枝最新进展之彩票假设解读澎湃号·湃客澎湃新闻

神经网络剪枝技术可以极大的减少网络的参数,并降低存储要求,和提高推理的计算性能。而且目前这方面最好的方法通常能保持很高的准确性。因此对通过修剪产生的稀疏架构的研究是一个很重要的方向。本选题的思路是对以下两篇论文做深度解读,一探当今最好的剪枝方法的究竟。

现在有了性能更强的GPU,计算一个更深的神经网络、参数更多的神经网络根本不成问题。但事实上并不是每个人都是人手几张卡的,对于具有更多层和节点的神经网络,减少其存储和计算成本变得至关重要。并且,随着移动设备和可穿戴设备的普及,如何让这些模型在计算能力并不强的移动端也能很好地应用,也成为亟待解决的问题。因此越来越多的研究者开始研究神经网络模型压缩。

综合现有的模型压缩方法,它们主要分为四类:参数剪枝和共享(parameterpruningandsharing)、低秩分解(low-rankfactorization)、转移和紧凑卷积核(transferred/compactconvolutionalfilters)、知识蒸馏(knowledgedistillation)[1]。

论文1:TheLotteryTicketHypothesis:FindingSparse,TrainableNeuralNetworks

介绍

机器学习的训练过程,是数据科学家在理论与现实之间面临的妥协之一。通常情况下,对于特定问题而言,由于训练成本的限制,理想的神经网络架构不能完全实现。一般而言,神经网络最初的训练需要大量的数据集和昂贵的计算成本,其结果得到一个隐藏层之间充满复杂连接的庞大的神经网络结构。这种结构往往需要经过优化技术,移除某些连接来调整模型的大小。数十年来困扰研究者的一个问题是我们是否真的需要这样的庞大的神经网络结构。很明显,如果我们连接网络中的每个神经元,可以解决特定的问题,但可能因为高昂的成本而被迫止步。难道我们不能从更小、更精简的网络开始训练吗?这就是彩票假设的本质。

以博彩来类比,训练机器学习模型就相当于通过购买每一张可能的彩票来获得中奖彩票。但是如果我们知道中奖彩票长什么样子,那么是不是就可以更聪明地来选择彩票?在机器学习模型中,训练过程得到的巨大的神经网络结构相当于一大袋彩票。在初始训练之后,模型需要进行优化,例如剪枝,删除网络中不必要的权重,从而在不牺牲性能的情况下减小模型的大小。这就相当于在袋子中寻找中奖彩票,然后扔掉剩下的彩票。通常情况下,经过剪枝后的网络结构要比原始的小90%左右。那么问题来了,如果网络结构可以缩小,那么为了提高训练效率为什么不一开始就训练这个更小的网络呢?然而,已经有许多实验证明了,如果从头开始训练剪枝后的网络,得到的准确率要比原始网络低很多。

MIT的彩票假设背后的思想是,一个大型的神经网络包含一个小的子网络,如果一开始就训练,那么会得到和原始网络相似的准确率。

彩票假设

我们将一个复杂网络的所有参数当做奖池,上述一组子参数对应的子网络就是中奖彩票。

如何找到中奖彩票

如果彩票假设是正确的,那么下一个问题就是如何设计一种策略来找出中奖彩票。作者提出一种通过迭代找到中奖彩票的方法:

1.随机初始化一个复杂神经网络

2.训练这个网络j次直到收敛

3.剪掉部分权重参数

4.将剩下的子网络用第1步的权重进行初始化,创建中奖彩票

5.为了评估第4步得到的子网络是否是中奖彩票,训练子网络,比较准确率

上述过程可以进行一次或者多次,在只有一次剪枝时,网络训练一次,p%的权重被剪掉。论文中迭代进行n次剪枝,每一次剪掉p^(1/n)%的权重。

实验分析

作者分别在针对MNIST的全连接神经网络和针对CIFAR10的卷积神经网络上做了大量实验。这里以MNIST实验为例:

Pm代表网络还剩下多少的参数。从图3可以观察到,不同剪枝率的子网络的性能不一样,当Pm>21.2%时,Pm越小,即剪枝的参数越多,准确率越高,当Pm<21.1%时,Pm越小,准确率会下降。中奖彩票要比原始网络收敛的更快,同时具有更高的准确率和泛化能力。

由图4可以观察到,迭代剪枝要比oneshot剪枝更快找到中奖彩票,而且在子网络规模较小的情况下依然可以达到较高的准确率。为了衡量中奖彩票中初始化的重要性,作者保留了中奖彩票的结构然后使用随机初始化重新训练。与中奖彩票不同的是,重新初始化的网络学习速度比原来的网络越来越慢,并且在进行少量剪枝之后就会失去测试精度。

总结

本文中,作者提出了彩票假设并给出一种寻找中奖彩票的方法,通过迭代非结构化剪枝的方式可以找到一个子网络,用原始网络的初始化参数来初始化,可以在性能不下降的情况下更快的训练这个子网络,但是如果用随机初始化方法却达不到同样的性能。

论文2:DeconstructingLotteryTickets:Zeros,Signs,andtheSupermask

彩票假设回顾

Frankle和Carbin在彩票假设(LT)论文中提出一种模型剪枝方法:对网络训练后,对所有小于某个阈值的权重置0(即剪枝),然后将剩下的权重重置成原始网络初始的权重,最后重新训练网络。基于这种方法,得到了两个有趣的结果。

一方面经过大量剪枝的网络(删掉85%-95%的权重)与原网络相比性能并没有明显的下降,而且,如果仅仅剪掉50%-90%的权重后的网络性能往往还会高于原网络。另一方面,对于训练好的普通网络,如果重新随机初始化权重然后再训练,得到的结果与之前的相当。而对于彩票假设的网络并没有这个特点,只有当网络使用和原网络一样的初始化权重,才能很好地训练,如果重新初始化会导致结果变差。剪枝掩模(如果删掉权重置0,否则为1)和权重的特定组合构成了中奖彩票。

存在的问题

虽然上篇论文里证明了彩票假设是有效的,然而许多潜在的机制尚未得到很好的理解。例如:LT网络如何使他们表现出更好的性能?为什么掩模和初始权重集如此紧密地耦合在一起,以至于重新初始化网络会降低它的可训练性?为什么简单地选择大的权重构成了选择掩模的有效标准?其他选择掩模的标准也会起作用吗?本篇论文提出了对这些机制的解释,揭示了这些子网络的特殊模式,引入了与彩票算法相抗衡的变体,并获得了意外发现的衍生品:超级掩模(supermask)。

掩模准则

作者将每个权重的掩模值设为初始权值和训练后的权值的函数M(w_i,w_f),可以将这个函数可视化为二维空间中的一组决策边界,如图1所示。不同的掩码标准可以认为是将二维(wi=初始权值,wf=最终权值)空间分割成掩码值为1vs0的区域。

如图所示的掩码准则由两条水平线标识,这两条水平线将整个区域划分为掩码=1(蓝色)区域和掩码=0(灰色)区域,对应于上篇论文中使用的掩模准则:保留最终较大的权重,并剪掉接近于零的权重。作者将这种称为large_finalmask,M(w_i,w_f)=|w_f|。作者还提出了另外8种掩模准则,对应的公式都在下图表示出来了,保留椭圆中彩色部分的权重,将灰色部分的权重剪掉。

作者对这些掩模准则做了一系列对比试验,对于全连接和Conv4网络结果如下图所示。可以发现,magnitudeincrease和large_final相比不相上下,在Conv4网络中还要表现的更好一些。

以随机掩模为基线,我们可以发现那些倾向于保留具有较大最终值的权重的准则能更好的发现子网络,而保留小权值的效果较差。

正负号的重要性

现在已经探索了对哪些权重进行减值效果较好。接下来的问题是该将保留下来的权重重置为何值。作者主要是想研究上篇论文中的一个有趣的结果,当重置为原网络初值的时候效果很好,但当随机初始化时,效果会变差。为什么重新初始化效果会变差以及初始化的哪些条件最重要?为了找到问题的答案,作者做了一系列初始化的实验。

Reinit:基于原始的初始化分布来初始化保留的权重

Reshuffle:基于保留权重的原始分布进行初始化

Constant:将保留的权重设为正或负的常数,即每层原初始值的标准差

可以发现保留权重的初始值并没有保留正负号这么重要。如果使用其他的初始化方法,但是忽略正负号,那么效果很差,和随机初始化差不多(图中虚线)。而如果和原来的权重保持一样的正负号,三种方法和LT网络的初始化效果相差无几(图中实线)。只要保持正负号一致,即使将剩下的权重都设为常量也不会影响网络的表现。

超级掩模

在开头提到了超级掩模的概念,它是一种二值掩模,当作用到随机初始化的网络上时,即使不重新训练,也可以得到更高的准确率。下面介绍如何找到最佳的超级掩模。

基于上述对初始符号重要性的洞察以及让权重更接近最终值的考虑,作者引入了一种新的掩模准则,选择较大的权重,而且这些权重在训练后也保持相同的正负号,作者将其称为large_final,samesign。并且用large_final,diffsign作为对照,两者的区别如下图所示。

参考文献

1.Cheng,Yu,etal."Asurveyofmodelcompressionandaccelerationfordeepneuralnetworks."arXivpreprintarXiv:1710.09282(2017).

2.Frankle,Jonathan,andMichaelCarbin."Thelotterytickethypothesis:Findingsparse,trainableneuralnetworks."ICLR(2019).

3.Zhou,Hattie,etal."Deconstructinglotterytickets:Zeros,signs,andthesupermask."arXivpreprintarXiv:1905.01067(2019).

THE END
1.大乐透2加1有钱吗具体来说,“2加1”指的是号码与当期开奖号码中的任意2个前区号码及1个后区号码相同,这种情况下可以中得八等奖,单注奖金固定为5元。虽然奖金金额不高,但购买者仍可选择进行追加投注来增加中奖机会。不过需要注意的是,追加投注对于八等奖是无效的,即追加后中得的八等奖奖金仍然是5元。 如果您还有其他关于彩票https://agents.baidu.com/content/question/6bb6e4f6b30b32f7c1efdf28
2.巡视和巡察的区别巡查和巡察的区别双一流大学是什么意思(hotajpcom什么意思) 2023-08-13 蒋琴(关于蒋琴简述) 2023-08-13 12306如何分配长途票和短途票?官方解答来了! 2023-08-13 西安市喂子坪村山洪泥石流已造成2人死亡16人失联 抢险救援正在进行 2023-08-13 木森农牧:科技支撑,让红山荞麦“枝繁叶茂” 2023-08-13 新汽水品牌XOXOhttp://m.cntvsp.cn/shipingnews/yaowen/2023/0813/104072.html
3.天干地支五行对照表1,比如,记住几个特殊的年份如1984年为甲子年,类推1924,1864,1804,……均为甲子年。提到的壬戌是第59顺位,那么用甲子年份加上59减1得到的1982,1922,1862,1802……都是壬戌年! 2,比如,《辛亥革命》的辛亥年是1911年(48号干支),《戊戌变法》的戊戌年为35号干支,比辛亥年早13年,则“1911-13=1898”故《戊戌https://m.wang1314.com/doc/webapp/topic/21226144.html
4.前区2重号+后区1重号大乐透头奖开2注1000万彩票头奖:2注1000万分落两省 数据显示,江西中出的1000万元头奖出自上饶,中奖彩票为一张8+3复式票,投入336元,共中出一等奖1注、二等奖2注、三等奖15注、四等奖60注、五等奖70注、六等奖20注,单票擒奖1042万元。四川中出的1000万元头奖出自成都,中奖彩票为一张5注10元投入的单式票。由于未采用追加投注,来自江西https://sports.sina.com.cn/l/2017-07-08/doc-ifyhwehx5381489.shtml
5.小蓝精灵2+1彩吧图库(tuku.55125.cn)提供[小蓝精灵2+1],[小蓝精灵2+1]的更新时间为[2024-12-08 00:00:00]https://tuku.55125.cn/H08
6.命里有暗财的八字是哪些?怎么看暗财?女命中有暗财什么意思? 1、财星明透天干 天干主外,财星明透天干之上,代表发财的方式光明正大,所有人都能看出来你有钱。 2、财星居于地支 地支主内,财星藏于地支,代表发财的过程不会太公开,外人也很难知道你如何发财、是不是有钱等等情况。 3、财星深藏 https://m.k366.com/bazi/126799.htm
7.浙江体彩网>>玩法规则>>中国体育彩票“排列3”游戏介绍2.初始投注许可 初始投注许可是指当期销量为0时,将初始风险(可赔付的金额)控制在一定范围内,该初始风险允许各投注号码的投注注数。其中,“直选投注”、“组选3”、“组选6”合并限制,投注“组选3”、“组选6”均折合为“直选投注”计算。 初始赔付金额为当期(第N期)前5期(第N-1期、第N-2期、第N-3期、https://www.zjlottery.com/Rule/Lotto/201005/10770.html
8.湖北彩民5+3复式高效中1注一等2注二等共1013万彩市湖北彩民5+3复式高效中1注一等2注二等共1013万 9月15日晚开奖的超级大乐透第12108期,全国中出1注头奖,单注奖金1000万元,可惜出自湖北的幸运彩民没有采用追加投注,错失了独揽1600万巨奖的机会。目前,大乐透奖池金已涨至1.57亿元,9月17日晚开奖的12109期有望制造更多惊喜。https://zx.500.com/dlt/n_dt/cs/20120916_304013.shtml
9.分组复合法例3:单元码距0、内码距、单元期距1、内期距、码数1、期数1;这种情况就是重码;200610、200611、200612期的27,符合“单元个数为3之后可杀单元4的号码”的情况,所以200613期可稳杀27,杀码正确。 例4:单元码距0、内码距、单元期距2、内期距、码数1、期数1;200612、200614、200616期的33,这就是“单元http://www.360doc.com/content/13/0816/22/13467306_307692489.shtml
10.2016常见的电信诈骗手段及防范建议法人20、如果您看到网上有预测彩票的广告,您是否会缴纳咨询费? A、会交咨询费,试一试万一中大奖呢 B、怀疑真假,又怕错过大奖 C、肯定不会交咨询费,这是诈骗 ◆自测分值对照 回答A:0分 B:1分 C:2分 0-18分:防范菜鸟,您很危险,因为您的抗电信诈骗能力太弱了,骗子们很喜欢您这种类型的,所以您一定要注http://www.mzyfz.com/cms/lvshijulebu/falvdongtai/zhuanjiashuofa/html/806/2016-09-09/content-1219995.html
11.大乐透头奖1注1800万+2注1000万奖池20.1亿本期一等奖中出3注1000万,分落黑龙江、安徽、广东;其中广东1注选择追加,多得800万元奖金。 数据显示,广东中出的1800万元出自珠海,中奖彩票为一张7+2复式追加票,单票擒奖1803万元。 黑龙江中出的1000万元出自农垦,中奖彩票为一张5注10元投入的单式票。 https://sports.sina.cn/lottery/2019-11-20/detail-iihnzahi2236818.d.html?vt=4
12.中山彩民“7+2”复式票收获大奖中641万,买新车回老家!信息时报讯 (记者 陈学钢 通讯员 黄英杰) 双色球第22103期开奖,中山市黄圃镇大岑村大兴东路新利新百货侧的44110148福彩投注站中出1注626万元一等奖,中奖彩票为一张28元的“7+2”自选复式彩票,共中得总奖金641万元。近日,幸运儿周先生(化名)现身中山市福彩中心兑奖。喜中双色球大奖非常开心,周先生表示第一件事https://static.nfapp.southcn.com/content/202209/26/c6925035.html
13.数论小白都能看懂的数学期望讲解数学期望例题假设甲最终输了,那么他是在什么概率下输的呢? 1 2 × 1 2 = 1 4 \frac{1}{2}\times \frac{1}{2}=\frac{1}{4}21?×21?=41? 他实际上只有四分之一的概率输。 显而易见,因为每局都能分出胜负,所以他有3 4 \frac{3}{4}43?的概率赢掉。 https://blog.csdn.net/kkkksc03/article/details/99619790
14.今晚体彩大乐透开出1注1800万和2注1千万,来自新浪彩票今晚体彩大乐透开出1注1800万和2注1千万,分落3地,看看是哪里中出的大奖~http://t.cn/A6iRhPYP https://weibo.com/1044256885/Lfbd7kTQ8