ScalingLaw(缩放定律)是AI界当下的金科玉律。简单解释的话它就是在说数据越多,参数越大,算力越强,模型最终的能力就越强。正是这一规则让OpenAI相信AGI可能到达,只要数据够多,参数够大,AGI就一定能达到。
但这一规律在近期发布的一系列模型前,似乎在面对着挑战乃至逆转。
Llama3才火了一周,70B的“小参数”大模型就能和据说1.8T参数的GPT4掰掰手腕,而Llama38B更是能力上全面超越比自己大了近10倍的Llama270B。
根据其官网介绍Llama3相对于Llama2的主要架构更改只有从32k提升到128K的分词器,采用了分组查询注意力(GQA)以及提升上下文长度的RoPE技术。这些改变都不算对架构的巨大改变,但小模型的能力就是在飞跃式的提升。
由此来看,参数越多模型越强这条ScalingLaw的黄金法则看起来好像要失效了。
结果这两天微软又发出了Phi-3系列模型,其仅3.8B的mini版模型号称能力对标GPT3.5,拳打Llama38B,脚踢Mistreal7B等一众比它大了一倍的顶尖“小模型”。微软还把它直接装进了苹果A16芯片的手机里,仅占1.8G内存,完美流畅运行。
(每秒12个token,在本地模型里算是超高速了)
这一超越人们一般认知的性能,在Phi3的论文中被形容成当前模型的表现偏离了标准的ScalingLaw。(deviatefromthestandardscaling-laws)
小模型到底有没有在打破ScalingLaw?我们得先挖挖这些小模型是用什么妙法“突破”ScalingLaw的。
两条路,“突破”ScalingLaw
虽然Llama38B和Phi33.8B都展示出了非常好的效果,但它们选择的路径并不相同。大模型三要素:框架,数据和参数,参数既然固定是小的,框架在这么小参数下做MOE也没意义,能做的改变有限,因此他们都只能在数据这个要素上下功夫。
Llama3:有钱任性路径
Llama38B所走的路径是猛加训练数据量。一个80亿(8B)参数的模型,Meta用了15万亿(15T)的数据进行训练!这和他们训练70B模型用的量级一致。所以它是符合ScalingLaw的,只不过这次增加的不是参数量,而是数据量而已。
既然如此,为什么之前很少有人做这样给小参数模型喂超大数据的尝试呢?
因为在大语言模型界一直都还有一个规则,叫ChinchillaScaling规则。这出自一篇发布于2022年的论文,作者Hoffman试图去找到对应某种参数的最佳数据训练量。他通过三种拟合方法,最终发现大概用20倍于参数量的数据进行训练是效率最高的(即tokens/parameters为20/1)。数据比这个少的话,参数多提升也不大;数据比参数多20倍的话,模型性能的提升就没有训练更大参数模型那么明显了。所以如果有足够算力去训练更多的数据时,大多数模型都会选择对应的更大的参数量级去进行训练,因为这样可以达到在一定的算力之下效果的最优,能带来做多的泛化和最好的效果。
(Chinchilla的最佳效率点分布)
但Meta在Llama3的开发过程中对ChinchillaScalingLaw进行了一波压力测试。根据Llama3的简易版技术文档中所述,虽然8B参数模型的Chinchilla最优训练计算量差不多是200Btoken,但Meta发现,即使在模型使用超过两个数量级(大概4万亿)的数据进行训练后,模型性能仍在继续提高。所以Meta干脆直接给8B和70B参数模型喂了15T的token进行训练,结果他们发现模型能力还在继续呈对数线性改进。
针对这点,前OpenAI联合创始人AndrejKarpathy还在Llama3发布后特别发了一条推文,指出只要你持续加数据量,模型就是会越来越好。他还点出大家之所以不这么做,一方面是出于误解:觉得超过Chinchilla的最佳数据量,模型的能力提升会大幅收敛。Llama3正是用事实证明了并不会。另一方面,在现在卡慌的背景下用这么多数据持续多次的训练一个小模型并不经济,因为用同等算力和数据做大模型,其能力更强。
所以只有Meta这种坐拥35万块H100,不差卡的真土豪才敢只从扩量数据这条路上去验证ScalingLaw。
Phi-3:工匠雕花路线
微软虽然也不缺卡,但他们明显还是更考虑性价比的。在Phi-3的技术说明中,mini版本所用的训练集为3.3万亿个token,也大大超过了Chichilla最优,但只有Llama38B的1/5。
Phi系列从其第一代开始一直走的都更偏向于另一个路径:优化数据。除了精心筛选数据外,微软还利用更大的模型生成对应的教科书和习题集,专门优化模型的推理能力。
比如最近Huggingface就发布了一个名为Fineweb的数据集,训练了200多个消融模型来仔细解析和过滤,排重CommonCrawl从2013-2024年间的所有数据,得到了一个15T的训练集,在这个训练集上进行训练的模型最终效果可以显著提升。
最上面的是FineWeb,最下面的是一般数据
Phi3的核心数据处理方法和逻辑没有什么改变。主要是做了一些拓展和优化,把1.5T的数据集提升到了3.3T。
当然Phi3的做法更复杂,其数据包含了两个主要组成部分,a)经过大语言模型过滤的高质量网页数据。这些数据要进一步按照"教育水平"筛选,保留更多能提高模型"推理能力"的网页。b)由大语言模型生成的合成数据。这部分数据专门用于教授模型逻辑推理和各种特定领域的技能。
通过这通对数据的细致处理和雕花,Phi-3mini居然能达到比它大至少50倍的GPT3.5层级的推理能力。
得分基本全面碾压
当然,Phi3mini的惊艳表现其实也无法动摇ScalingLaw本身,至多只能说力大砖飞有效,但用点巧劲处理一下力(数据),砖飞的更远。
小模型越强,大模型离我们的生活就越近
其他专家,包括AI三巨头之一的约书亚·本吉奥,反对派巨头GarryMarcus都表示,如果没有框架性的更新,在现行低效的Transformer框架下,AI的发展和Scaling速度都会放缓。
这其实在各个AI大厂的实践中也有体现。据之前外媒报道,微软为GPT-6训练搭建10万个H100训练集群。但以当前美国的电网能力根本承受不了这样的能耗,一旦在同一个州的部署超过10万个H100GPU,那整个电网都得崩溃。
如果ScalingLaw真的撞上了能源墙,那下一步大厂们应该干点什么呢?
其实和互联网大厂在发展中的逻辑一样,如果增长无法保证,那就赶紧转化成实用用例把钱赚上,稳住脚跟。
但现在,随着Llama38B还是Phi3mini的出现,一条将大模型引向实用的路也越来越明朗了。
网友表示虽然高性能小模型训练贵,但推理便宜啊,整体还是更便宜,尤其对于要覆盖较大用户群体的推理成本很低
无论是在越来越强支持AI得设备上实装,还是单纯提供价格低廉的云服务,高性能小模型都意味着AI将更容易的摆脱成本上的桎梏,被更有效的应用。