万万没想到,ChatGPT参数只有200亿?腾讯云开发者社区

谁都没有想到,ChatGPT的核心秘密是由这种方式,被微软透露出来的。

距ChatGPT发布已经快一年了,但OpenAI一直未透露ChatGPT的技术细节。由于其强大的模型性能,人们对ChatGPT的参数量、训练数据等信息抱有诸多疑问和猜测。

作为行业一直以来的标杆,ChatGPT性能强大,可以解决各种各样的问题。它的前身GPT-3参数量就达到了1750亿,实用化以后的大模型居然被OpenAI瘦身了快9倍,这合理吗?

「如何看待这篇论文」的话题立刻冲上了知乎热榜。

具体来说,微软这篇论文提出了一种预训练的扩散代码生成模型——CodeFusion。CodeFusion的参数量是75M。在实验比较部分,论文的表1将ChatGPT的参数量明确标成了20B。

众所周知,微软和OpenAI是合作已久的一对伙伴,并且这是一篇EMNLP2023论文,因此大家推测这个数据很有可能是真实的。

然而,关于ChatGPT参数量的猜测,人们一直认为是一个庞大的数字,毕竟GPT-3的参数量就已经达到了175B(1750亿)。掀起大型语言模型(LLM)浪潮的ChatGPT,难道就只有20B参数?

大家怎么看?

这个数据被扒出来之后,在知乎和Twitter已经引起了广泛讨论。毕竟,200亿参数达到这样的效果十分惊人。再则,国内追赶出的大模型动则就是数百亿、上千亿。

那么这个数据保不保真?大家都有什么看法呢?

NLP知名博主、新浪微博新技术研发负责人张俊林「盲猜」分析了一波,引起了大家广泛赞同:

可能性一:OpenAI已经看到Chinchilla的论文,模型是按照龙猫法则做的,我们假设ChatGPT的训练数据量不低于2.5Ttoken数量(为啥这样后面分析),那么按照龙猫法则倒推,一般训练数据量除以20就应该是最优参数量。于是我们可以推出:这种情况ChatGPT模型的大小约在120B左右。

可能性二:OpenAI在做ChatGPT的时候还没看到Chinchilla的论文,于是仍然按照OpenAI自己推导的Scalinglaw来设计训练数据量和模型大小,推算起来训练数据量除以12.5左右对应模型最优参数,他们自己的Scalinglaw更倾向把模型推大。假设训练数据量是2.5T左右,那么这种情况ChatGPT的模型大小应该在190到200B左右。

大概率第一个版本ChatGPT推出的时候在200B左右,所以刚出来的时候大家还是觉得速度慢,价格也高。3月份OpenAI做过一次大升级,价格降低为原先的十分之一。如果仅仅靠量化是不太可能压缩这么猛的,目前的结论是大模型量化压缩到4到6bit模型效果是能保持住不怎么下降的。

所以很可能OpenAI这次升级从自己的Scalinglaw升级到了Chinchilla的Scalinglaw,这样模型大小就压缩了120B左右,接近一半(也有可能远小于120B,如果按照chinchillalaw,llama2最大的模型应该是100B左右,此时算力分配最优,也就是说成本收益最合算。但是实际最大的llama2模型才70B,而且更小的模型比如7B模型也用超大数据集。

llama165B基本是符合chinchillalaw的,llama2最大模型已经打破chinchillalaw开始怼数据了。就是说目前大家做大模型的趋势是尽管不是算力分配最优,但是都倾向于增加数据减小模型规模,这样尽管训练成本不合算,但是推理合算,而训练毕竟是一次性的,推理则并发高次数多,所以这么配置很明显总体是更合算的),再加上比如4bit量化,这样推理模型的大小可以压缩4倍,速度大约可提升8倍左右,如果是采取继续增加训练数据减小模型规模,再加上其它技术优化是完全有可能把推理价格打到十分之一的。

后续在6月份和8月份各自又价格下调了25%,最终可能通过反复加数据减小规模逐渐把模型压缩到20B左右。

这里解释下为何ChatGPT的训练数据量不太可能比2.5T低,LLaMA2的训练数据量是2T,效果应该稍弱于ChatGPT,所以这里假设最少2.5T的训练数据。目前研究结论是当模型规模固定住,只要持续增加训练数据量,模型效果就会直接增长,mistral7B效果炸裂,归根结底是训练数据量达到了8个T,所以导致基础模型效果特别强。以ChatGPT的效果来说,它使用的数据量不太可能低于2.5T。

当然,还有另外一种可能,就是ChatGPT在后期优化(比如第一次大升级或者后续的升级中,开始版本不太可能走的这条路)的时候也不管scalinglaw了,走的是类似mistral的路线,就是模型大小固定在20B,疯狂增加训练数据,如果又构造出合适的instruct数据,效果也可能有保障。

不论怎么讲,对于6B到13B左右比较适合应用落地的模型,强烈呼吁中文开源模型模仿mistral,固定住一个最适合使用的模型大小,然后疯狂增加训练数据,再加上好的instruct策略,是有可能作出小规模效果体验足够好的模型的。我个人认为对于开源模型来说,7B-13B左右大小的模型应该是兵家必争之地。有心气做开源的可以再努把力,把训练数据往上再努力怼一怼。

而国内外许多网友也都认为,200亿的参数,是完全合理的。

也有知乎网友从价格上分析,这个数据也应该是对的。

当然,也有网友认为这可能是个「拼写错误」,或许实际是120B(1200亿),至少120B和GPT-3(175B)是一个数量级。

但所有这些都是猜测,由于OpenAI对参数量、训练数据、方法等核心信息一直讳莫如深,因此20B这个数据到底是不是真的根本无法求证。如果是真的,那么大型语言模型未来的改进方向还会是增加参数量吗?

再过几天,就是OpenAI的开发者大会了,也许我们能够了解到更多有用的信息,让我们拭目以待吧。

THE END
1.ChatGPT在数据处理中的应用如何用chatgdp处理csv数据? 在SQL结果中,我没有实际去验证。在Python结果中,使用了describe函数,还是很不错的。我们在Python中概览数据时,就是使用该函数。但是describe函数的结果中已经包含了非空值计数,而ChatGPT又单独计算了一次。 1.2 数据预处理 ? 数据预处理主要包括缺失值填充、重复值删除、异常值删除或替换。接下来看看ChatGPThttps://blog.csdn.net/weixin_41905135/article/details/136232210
2.如何利用CHATGPT分析数据快熟生成文案:无论是小红书、微博还是公众号, Chat GPT都能帮你快熟生成吸引眼球的文案,让你的创作更具有吸引力。自动撰写报告:无论是工作汇报还是项目 只需输入相关指令, Chat GPT就能为你生成结构清晰、内容肺腑的报告。Chat GPT使用技巧 1、准确提问 Chat GPT功能虽然非常强大, 但由于目前Chat GPT数据库http://www.hlwwhy.com/ask/6705610.html
3.chatgpt怎么做统计?Worktile社区2. 数据预处理:对采集到的对话数据进行预处理。预处理包括数据清洗、去除重复对话、去除噪声等步骤,以确保数据的质量和准确性。 3. 统计指标选择:根据分析的目的,选择适当的统计指标来衡量ChatGPT的性能和效果。例如,可以考虑以下指标:生成回答的准确率、可读性、相关性等。 https://worktile.com/kb/ask/539416.html
4.ChatGPT服务器,深度拆解基于此,我们进一步假设:1)考虑到AI大模型预训练主要通过巨量数据喂养完成,模型底层架构变化频率不高,故我们假设每月最多进行一次预训练;2)人类反馈机制下,模型需要不断获得人类指导以实现参数调优,以月为单位可能多次进行。由此我们计算得ChatGPT单月Finetune算力成本至少为1350.4PFlop/s-day。https://www.51cto.com/article/747956.html
5.从ChatGPT爆火看人工智能大势大数据。ChatGPT训练数据集规模巨大,训练数据集包含六类数据,分别是维基百科、书籍、期刊、Reddit链接、Common Craw以及专门的数据集。GPT-3的预训练数据有45TB。ChatGPT训练数据集规模未公开,推测也是百T级别。 大算力。GPT-3的算力需求为3640Petaflop/s-day(假设每秒计算1千万亿次,需要3640天),微软投入5亿美元建https://www.cnii.com.cn/gxxww/zgdxy/ztjj/202304/t20230420_464182.html
6.ChatGPT作为知识库问答系统的问答能力评测与现有的KBQA模型不同,ChatGPT在问答场景下的输出一般是一段包含了答案的文本,难以直接与数据集提供的答案做精确匹配从而得到模型的精准率。而由于采样的数据规模较小,已有的ChatGPT评估工作一般通过人工评价来计算模型的性能。因此,我们需要建立一套大部分自动化的答案评测方法。 https://maimai.cn/article/detail?fid=1777689012&efid=GJoGHmTuTzjbUa7TLdmtDw
7.ChatGPT原理理解和结构解读〖前言〗问了200+个问题后,终于完全搭建起来对Chat@GPT本身的原理理解和结构了解,形成的理解文件90%的内容都是他生成的。但是结构化这篇文章以及深入时刻,是自己完成的。今后的学习和工作可能都需要和他来共同完成了。 1 从概率角度理解生成式模型原理 https://www.jianshu.com/p/0628b1bd2c48