把GPT3.5装进手机里?小模型爆发背后没什么神奇的魔法

ScalingLaw(缩放定律)是AI界当下的金科玉律。简单解释的话它就是在说数据越多,参数越大,算力越强,模型最终的能力就越强。正是这一规则让OpenAI相信AGI可能到达,只要数据够多,参数够大,AGI就一定能达到。

但这一规律在近期发布的一系列模型前,似乎在面对着挑战乃至逆转。

Llama3才火了一周,70B的“小参数”大模型就能和据说1.8T参数的GPT4掰掰手腕,而Llama38B更是能力上全面超越比自己大了近10倍的Llama270B。

根据其官网介绍Llama3相对于Llama2的主要架构更改只有从32k提升到128K的分词器,采用了分组查询注意力(GQA)以及提升上下文长度的RoPE技术。这些改变都不算对架构的巨大改变,但小模型的能力就是在飞跃式的提升。

由此来看,参数越多模型越强这条ScalingLaw的黄金法则看起来好像要失效了。

结果这两天微软又发出了Phi-3系列模型,其仅3.8B的mini版模型号称能力对标GPT3.5,拳打Llama38B,脚踢Mistreal7B等一众比它大了一倍的顶尖“小模型”。微软还把它直接装进了苹果A16芯片的手机里,仅占1.8G内存,完美流畅运行。

(每秒12个token,在本地模型里算是超高速了)

这一超越人们一般认知的性能,在Phi3的论文中被形容成当前模型的表现偏离了标准的ScalingLaw。(deviatefromthestandardscaling-laws)

小模型到底有没有在打破ScalingLaw?我们得先挖挖这些小模型是用什么妙法“突破”ScalingLaw的。

两条路,“突破”ScalingLaw

虽然Llama38B和Phi33.8B都展示出了非常好的效果,但它们选择的路径并不相同。大模型三要素:框架,数据和参数,参数既然固定是小的,框架在这么小参数下做MOE也没意义,能做的改变有限,因此他们都只能在数据这个要素上下功夫。

Llama3:有钱任性路径

Llama38B所走的路径是猛加训练数据量。一个80亿(8B)参数的模型,Meta用了15万亿(15T)的数据进行训练!这和他们训练70B模型用的量级一致。所以它是符合ScalingLaw的,只不过这次增加的不是参数量,而是数据量而已。

既然如此,为什么之前很少有人做这样给小参数模型喂超大数据的尝试呢?

因为在大语言模型界一直都还有一个规则,叫ChinchillaScaling规则。这出自一篇发布于2022年的论文,作者Hoffman试图去找到对应某种参数的最佳数据训练量。他通过三种拟合方法,最终发现大概用20倍于参数量的数据进行训练是效率最高的(即tokens/parameters为20/1)。数据比这个少的话,参数多提升也不大;数据比参数多20倍的话,模型性能的提升就没有训练更大参数模型那么明显了。所以如果有足够算力去训练更多的数据时,大多数模型都会选择对应的更大的参数量级去进行训练,因为这样可以达到在一定的算力之下效果的最优,能带来做多的泛化和最好的效果。

(Chinchilla的最佳效率点分布)

但Meta在Llama3的开发过程中对ChinchillaScalingLaw进行了一波压力测试。根据Llama3的简易版技术文档中所述,虽然8B参数模型的Chinchilla最优训练计算量差不多是200Btoken,但Meta发现,即使在模型使用超过两个数量级(大概4万亿)的数据进行训练后,模型性能仍在继续提高。所以Meta干脆直接给8B和70B参数模型喂了15T的token进行训练,结果他们发现模型能力还在继续呈对数线性改进。

针对这点,前OpenAI联合创始人AndrejKarpathy还在Llama3发布后特别发了一条推文,指出只要你持续加数据量,模型就是会越来越好。他还点出大家之所以不这么做,一方面是出于误解:觉得超过Chinchilla的最佳数据量,模型的能力提升会大幅收敛。Llama3正是用事实证明了并不会。另一方面,在现在卡慌的背景下用这么多数据持续多次的训练一个小模型并不经济,因为用同等算力和数据做大模型,其能力更强。

所以只有Meta这种坐拥35万块H100,不差卡的真土豪才敢只从扩量数据这条路上去验证ScalingLaw。

Phi-3:工匠雕花路线

微软虽然也不缺卡,但他们明显还是更考虑性价比的。在Phi-3的技术说明中,mini版本所用的训练集为3.3万亿个token,也大大超过了Chichilla最优,但只有Llama38B的1/5。

Phi系列从其第一代开始一直走的都更偏向于另一个路径:优化数据。除了精心筛选数据外,微软还利用更大的模型生成对应的教科书和习题集,专门优化模型的推理能力。

比如最近Huggingface就发布了一个名为Fineweb的数据集,训练了200多个消融模型来仔细解析和过滤,排重CommonCrawl从2013-2024年间的所有数据,得到了一个15T的训练集,在这个训练集上进行训练的模型最终效果可以显著提升。

最上面的是FineWeb,最下面的是一般数据

Phi3的核心数据处理方法和逻辑没有什么改变。主要是做了一些拓展和优化,把1.5T的数据集提升到了3.3T。

当然Phi3的做法更复杂,其数据包含了两个主要组成部分,a)经过大语言模型过滤的高质量网页数据。这些数据要进一步按照"教育水平"筛选,保留更多能提高模型"推理能力"的网页。b)由大语言模型生成的合成数据。这部分数据专门用于教授模型逻辑推理和各种特定领域的技能。

通过这通对数据的细致处理和雕花,Phi-3mini居然能达到比它大至少50倍的GPT3.5层级的推理能力。

得分基本全面碾压

当然,Phi3mini的惊艳表现其实也无法动摇ScalingLaw本身,至多只能说力大砖飞有效,但用点巧劲处理一下力(数据),砖飞的更远。

小模型越强,大模型离我们的生活就越近

其他专家,包括AI三巨头之一的约书亚·本吉奥,反对派巨头GarryMarcus都表示,如果没有框架性的更新,在现行低效的Transformer框架下,AI的发展和Scaling速度都会放缓。

这其实在各个AI大厂的实践中也有体现。据之前外媒报道,微软为GPT-6训练搭建10万个H100训练集群。但以当前美国的电网能力根本承受不了这样的能耗,一旦在同一个州的部署超过10万个H100GPU,那整个电网都得崩溃。

如果ScalingLaw真的撞上了能源墙,那下一步大厂们应该干点什么呢?

其实和互联网大厂在发展中的逻辑一样,如果增长无法保证,那就赶紧转化成实用用例把钱赚上,稳住脚跟。

但现在,随着Llama38B还是Phi3mini的出现,一条将大模型引向实用的路也越来越明朗了。

网友表示虽然高性能小模型训练贵,但推理便宜啊,整体还是更便宜,尤其对于要覆盖较大用户群体的推理成本很低

无论是在越来越强支持AI得设备上实装,还是单纯提供价格低廉的云服务,高性能小模型都意味着AI将更容易的摆脱成本上的桎梏,被更有效的应用。

THE END
1.ChatGPT与GPT3的区别与优势gpt3chatgpt当前,大模型的研究处于快速迭代和发展之中,不仅在学术界,在工业界也得到了广泛应用。GPT-3和ChatGPT是这一趋势下的重要里程碑,展示了模型参数量与任务表现之间的紧密关系。 1.3 研究意义 深入理解GPT-3与ChatGPT的区别及其优势对于推进自然语言处理技术的发展具有重要意义。这些模型的出现不仅提升了现有任务的解决效率https://blog.csdn.net/universsky2015/article/details/140028578
2.ChatGPT技术原理ChatGPT是由GPTChatGPT技术原理 ChatGPT 是由 GPT-3 迭代来的,原有的 GPT-3 可能难以从文本中学会一些,这就导致了 GPT-3 这样的语言模型,。Cha 来源于CSDN博主 Runjavagohttp://t.cn/A6OjShjz 的博客http://t.cn/A6OjShjhhttps://weibo.com/1764241425/Nkh1r5viV
3.一招鉴别真假ChatGPT,简述ChatGPTGPTGPT2和GPT3GPT-3是一种自然语言生成模型,它是目前规模最大的预训练模型之一,可以生成高质量的自然语言文本,包括文章、诗歌、对话等。GPT-3的模型规模比ChatGPT大得多,拥有13亿甚至更多的参数,因此它的生成质量和多样性比ChatGPT更高。GPT-3还支持一些其他的自然语言任务,例如翻译、问答、语义搜索等。 http://www.360doc.com/content/23/0319/10/26635931_1072648229.shtml
4.chatgpt接口请求参数详解GPTAPI和ChatGPTAPI(即GPTGPT-3 API:必选参数为model,prompt可选(参见documentation) ChatGPT API(即GPT-3.5 API):所需的参数是model和messages(参见documentation) 在使用ChatGPT API(即GPT-3.5 API)时可以看到: prompt参数甚至不是一个有效的参数,因为它被messages参数替换。 https://juejin.cn/post/7249397451054940197
5.解析ChatGPT背后的技术演进GPT-1、GPT-2和GPT-3的训练数据和参数量级对比 3.4 ChatGPT OpenAI公司在GPT-3与ChatGPT之间发布了多个迭代版本,其中包括:2021年7月推出了Codex系列;2022年1月,引入RLHF(基于人工反馈的强化学习)得到了InstructGPT;2022下半年,推出了融合Codex和InstructGPT的ChatGPT,使用了基于人类反馈的强化学习的版本指令微调模型https://www.51cto.com/article/768469.html
6.ChatGPT原理理解和结构解读(2)加载预训练模型:将预训练的ChatGPT模型加载到内存中,并根据任务需求调整模型的超参数。 (3)设置微调模型:根据具体任务,对预训练模型进行微调,并设置成本函数或风险函数。 (4)训练模型:使用训练集对微调模型进行训练,并根据验证集的表现调整模型参数。 https://www.jianshu.com/p/0628b1bd2c48
7.一文读懂ChatGPT的前世今生行业动态新闻中心#8 GPT-3 2020年5月,OpenAI发表了一篇论文:Language Models are Few-Shot Learners (语言模型是小样本学习者)。 31位作者、75页、320万token、1750亿参数、数据集45TB,训练花了3640pfs-day,训练一次的费用保守估计是460万美元,总训练成本估计达到了1200 万美元。暴力出奇迹。此时微软已经投资OpenAI(2019年投了10https://www.ulucu.com/news/industry/what-is-chatgpt
8.ChatGPTNextWebPro:基于chatgptnext1.Midjourney,该功能基于ChatGPT-Midjourney,使用antd进行了完全的重构,界面更加合理,参数更加全面。 2.Stable-Diffussion,支持lora模型,文生图、图生图、后期处理、图片信息,近乎完整的参数设置,以及图片完成后的功能按钮。 3.Dall-E-3,兼容dall-e-2,需要配置文件上传和存储功能,因为openai返回的链接有效期很短,过https://gitee.com/vual/ChatGPT-Next-Web-Pro
9.chatgpt本地部署最低配置本地部署ChatGPT(Chat Generative Pre-trained Transformer)是指将ChatGPT模型部署到本地计算机上,使得用户可以在本地使用ChatGPT进行对话生成。本地部署具有一些优势,例如可以减少网络延迟、保护用户隐私,同时也可以在离线环境中使用。由于ChatGPT模型具有大量的参数和计算要求,合适的电脑配置是必要的。 http://chatgpt.cmpy.cn/article/2351568.html
10.GitHubademzhang/ChatGPTNextWebPro:基于chatgptnext1.Midjourney,该功能基于ChatGPT-Midjourney,使用antd进行了完全的重构,界面更加合理,参数更加全面。 2.Stable-Diffussion,支持lora模型,文生图、图生图、后期处理、图片信息,近乎完整的参数设置,以及图片完成后的功能按钮。 3.Dall-E-3,兼容dall-e-2,需要配置文件上传和存储功能,因为openai返回的链接有效期很短,过https://github.com/ademzhang/ChatGPT-Next-Web-Pro
11.是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现搞清楚这些问题其实非常重要,短期的意义是,多大的模型规模是合适的?根据Chinchilla的论文,你可以对比在GPT-3的1750亿参数中,可能是有不少冗余的,如果更小的模型也可以出现能力涌现,这也许能削减训练成本。 长期的意义在于,AI目前还是在线上,但迟早会与物理世界连接,你可以想象一个基于GPT-10的ChatGPT与波士顿动力或者https://36kr.com/p/2210585582301824
12.如何免费使用GPT4或ChatGPT4(2)进入GPT-4插件页面,点击Click to Create an Instance创建实例。 (3)按需填充相关参数配置,貌似使用默认的OpenAI的key无法使用,可能需要填写自己的key。完成参数填写点击Create即可使用ChatGPT聊天。 5. 在nat.dev上免费使用ChatGPT-4 nat.dev支持邮箱注册或者使用Google账号登录。曾经免费的nat.dev,现在也扛不住https://www.wbolt.com/how-to-use-gpt-4-free.html
13.ChatGPT兴起,创成式AI能否重塑工具软件底层逻辑?在ChatGPT推出之后,微软计划对OpenAI追加100亿美元投资并在旗下搜索、办公软件中探索融合应用场景。由于ChatGPT显现出的巨大应用潜力与可能性,全球广大应用厂商也均开始积极尝试接入OpenAI的技术接口,以期AI与其现有产品能够产生新的化学反应。国内市场亦快速跟进,百度宣布旗下对标产品文心一言将于3月完成内测、面向公众https://news.futunn.com/post/24629911?futusource=news_newspage_recommend
14.快科技资讯2023年02月14日Blog版资讯中心同时,在大模型的框架下,ChatGPT所使用的GPT模型,每一代参数量均高速扩张,预训练的数据量需求和成本亦快速提升。 国盛证券计算机分析师刘高畅、杨然在发表于2月12日的报告《Chatgpt 需要多少算力》中估算,GPT-3训练一次的成本约为140万美元,对于一些更大的LLM模型,训练成本介于200万美元至1200万美元之间。 https://news.mydrivers.com/blog/20230214.htm
15.chatgpt说它有上千亿的参数,是什么意思?简介:chatgpt说它有上千亿的参数,是什么意思? 最近在捣鼓深度学习,今天突然开窍,对于大模型、上千亿参数的理解顿悟了,所以才有了这篇文章。 一个通俗易懂的模型举例 先用一个最简单的例子来说明,例如身高和体重之间是有一定对应的关系的。 如果我们有了非常多身高与体重对应关系的数据,我们就可以运用这些数据得到https://developer.aliyun.com/article/1228733
16.人人看得懂的ChatGPT技术原理解析这是对支撑ChatGPT工作的机器学习模型的一段简略的介绍:以大型语言模型为基础,然后深入研究使GPT-3能够被训练的自注意力机制,再从人类的反馈中进行强化学习,这就是使ChatGPT与众不同的新技术。 大型语言模型 Large Language Models ChatGPT是一种机器学习自然语言处理模型的扩展,称为大语言模型(LLMs)。LLMs能够读https://blog.itpub.net/70018536/viewspace-2937077/