AI圈巨震!微软论文声称ChatGPT是20B(200亿)参数量的模型?

今天,大模型圈都被微软论文中的一纸截图刷爆了,究竟是怎么回事?

就在前几天,微软发表了篇论文并挂在了arXiv上,该论文提出了一个参数量只有75M的小规模扩散模型——CodeFusion。

性能方面,7500万参数的CodeFusion在top-1准确率指标上,可以与最先进的350M-175B模型相媲美。

这篇论文的工作很有意义,但引起大家格外注意的却是——

作者在对比ChatGPT(gpt-3.5-turbo)时,标称的参数量竟然只有20B!

在此之前,大家针对GPT-3.5参数量的猜测都是1750亿,这相当于是缩减了差不多十倍!

根据这篇论文的爆料,网友还去维基百科上更新了GPT-3.5的介绍,直接把参数大小改成了20B。

消息一出,直接登上知乎热搜,网友们都炸了。

有人表示,赶紧回头再把我之前模型蒸馏的博文拿出来复习复习。

是「乌龙」还是「事实」?

网友的爆料贴一出,瞬间就引发了激烈的讨论。

目前,已经有超过68万人前来围观。

这位老哥表示,论文的几位作者也都在用推特,估计过不了多久就会亲自下场解释。

而对于这个神秘的「20B」,网友们也是众说纷纭。

有人猜测,这很可能是作者手误打错了。比如原本是120B,或者200B。

结合现实中的各项评测来看,确实有很多小模型能够取得和ChatGPT差不多的成绩,比如Mistral-7B。

也许,这也是侧面证实了GPT-3.5体量真的不大。

很多网友也认为20B的参数可能是准确的,纷纷发出感叹:

「这也太难以想象了!Falcon-180B和Llama2-70B,竟然都无法击败这款20B的模型。」

也有网友认为,gpt-3.5-turbo是精炼版的gpt-3.5。

而这次参数的「泄露」,正好从侧面印证了那些关于gpt-3.5-turbo表现不如旧版gpt-3.5的传言。

微软发布CodeFusion

而爆出GPT3.5只有20B参数的微软论文,是想介绍一个用于代码生成的扩散模型。

实验表明,CodeFusion(只有75M参数)在top-1精度方面与最先进的LLM(350M-175B参数)相当,并且在top-3和top-5精度方面性能和参数比非常优秀。

模型架构CODEFUSION用于代码生成任务,它的训练分为两个阶段,第一阶段是无监督预训练,第二阶段是有监督微调。

在第一阶段,CODEFUSION使用未标记的代码片段来训练降噪器和解码器。它还使用可训练的嵌入层L,将代码片段嵌入到连续空间中。

此外,CODEFUSION还借鉴了之前有关文本扩散的研究成果,将来自解码器的隐藏表示D融合到模型中。这是为了改进模型的性能。在训练过程中,在不同step中,模型引入一些噪声,然后计算损失函数,以确保生成的代码片段更符合预期的标准。

总之,CODEFUSION是一个执行代码生成工作的小模型,通过两个阶段的训练和噪声引入来不断提升其性能。这个模型的灵感来自于文本扩散的研究,并通过融合解码器的隐藏表示来改进损失函数,以更好地生成高质量的代码片段。

评估结果

下表总结了CODEFUSION模型与各个基线模型在top-1、top-3和top-5设置下的性能表现。

在top-1中,CODEFUSION的性能与自回归模型相媲美,甚至在某些情况下表现更出色,尤其是在Python任务中,只有GPT-3(175B)的性能稍微优于CODEFUSION(75M)。然而,在top-3和top-5方面,CODEFUSION明显优于所有基线模型。

表下表展示了CODEFUSION和自回归模型(包括T5、CodeT5、StarCoder、CodeGen、GPT-3)在各项基准任务上的平均多样性结果,考察了每个模型的前5代生成结果。

相对于自回归模型,CODEFUSION生成更加多样化的结果,表现更出色。

这一方法有助于总结和展示CODEFUSION模型的逐步进展,如下图所示。

说了这么多,GPT-3.5的参数量到底是多少?GPT-4与GPT-3.5在技术和其他方面有着什么样的联系?

GPT-3.5是一个个小专家模型的集成还是一个通才模型?是通过更大模型的蒸馏还是更大数据训练?

这些问题的答案只能等到真正开源的时候才能揭晓了。

原文标题:AI圈巨震!微软论文声称ChatGPT是20B(200亿)参数量的模型?

长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)

THE END
1.ChatGPT与GPT3的区别与优势gpt3chatgpt当前,大模型的研究处于快速迭代和发展之中,不仅在学术界,在工业界也得到了广泛应用。GPT-3和ChatGPT是这一趋势下的重要里程碑,展示了模型参数量与任务表现之间的紧密关系。 1.3 研究意义 深入理解GPT-3与ChatGPT的区别及其优势对于推进自然语言处理技术的发展具有重要意义。这些模型的出现不仅提升了现有任务的解决效率https://blog.csdn.net/universsky2015/article/details/140028578
2.ChatGPT技术原理ChatGPT是由GPTChatGPT技术原理 ChatGPT 是由 GPT-3 迭代来的,原有的 GPT-3 可能难以从文本中学会一些,这就导致了 GPT-3 这样的语言模型,。Cha 来源于CSDN博主 Runjavagohttp://t.cn/A6OjShjz 的博客http://t.cn/A6OjShjhhttps://weibo.com/1764241425/Nkh1r5viV
3.一招鉴别真假ChatGPT,简述ChatGPTGPTGPT2和GPT3GPT-3是一种自然语言生成模型,它是目前规模最大的预训练模型之一,可以生成高质量的自然语言文本,包括文章、诗歌、对话等。GPT-3的模型规模比ChatGPT大得多,拥有13亿甚至更多的参数,因此它的生成质量和多样性比ChatGPT更高。GPT-3还支持一些其他的自然语言任务,例如翻译、问答、语义搜索等。 http://www.360doc.com/content/23/0319/10/26635931_1072648229.shtml
4.chatgpt接口请求参数详解GPTAPI和ChatGPTAPI(即GPTGPT-3 API:必选参数为model,prompt可选(参见documentation) ChatGPT API(即GPT-3.5 API):所需的参数是model和messages(参见documentation) 在使用ChatGPT API(即GPT-3.5 API)时可以看到: prompt参数甚至不是一个有效的参数,因为它被messages参数替换。 https://juejin.cn/post/7249397451054940197
5.解析ChatGPT背后的技术演进GPT-1、GPT-2和GPT-3的训练数据和参数量级对比 3.4 ChatGPT OpenAI公司在GPT-3与ChatGPT之间发布了多个迭代版本,其中包括:2021年7月推出了Codex系列;2022年1月,引入RLHF(基于人工反馈的强化学习)得到了InstructGPT;2022下半年,推出了融合Codex和InstructGPT的ChatGPT,使用了基于人类反馈的强化学习的版本指令微调模型https://www.51cto.com/article/768469.html
6.ChatGPT原理理解和结构解读(2)加载预训练模型:将预训练的ChatGPT模型加载到内存中,并根据任务需求调整模型的超参数。 (3)设置微调模型:根据具体任务,对预训练模型进行微调,并设置成本函数或风险函数。 (4)训练模型:使用训练集对微调模型进行训练,并根据验证集的表现调整模型参数。 https://www.jianshu.com/p/0628b1bd2c48
7.一文读懂ChatGPT的前世今生行业动态新闻中心#8 GPT-3 2020年5月,OpenAI发表了一篇论文:Language Models are Few-Shot Learners (语言模型是小样本学习者)。 31位作者、75页、320万token、1750亿参数、数据集45TB,训练花了3640pfs-day,训练一次的费用保守估计是460万美元,总训练成本估计达到了1200 万美元。暴力出奇迹。此时微软已经投资OpenAI(2019年投了10https://www.ulucu.com/news/industry/what-is-chatgpt
8.ChatGPTNextWebPro:基于chatgptnext1.Midjourney,该功能基于ChatGPT-Midjourney,使用antd进行了完全的重构,界面更加合理,参数更加全面。 2.Stable-Diffussion,支持lora模型,文生图、图生图、后期处理、图片信息,近乎完整的参数设置,以及图片完成后的功能按钮。 3.Dall-E-3,兼容dall-e-2,需要配置文件上传和存储功能,因为openai返回的链接有效期很短,过https://gitee.com/vual/ChatGPT-Next-Web-Pro
9.chatgpt本地部署最低配置本地部署ChatGPT(Chat Generative Pre-trained Transformer)是指将ChatGPT模型部署到本地计算机上,使得用户可以在本地使用ChatGPT进行对话生成。本地部署具有一些优势,例如可以减少网络延迟、保护用户隐私,同时也可以在离线环境中使用。由于ChatGPT模型具有大量的参数和计算要求,合适的电脑配置是必要的。 http://chatgpt.cmpy.cn/article/2351568.html
10.GitHubademzhang/ChatGPTNextWebPro:基于chatgptnext1.Midjourney,该功能基于ChatGPT-Midjourney,使用antd进行了完全的重构,界面更加合理,参数更加全面。 2.Stable-Diffussion,支持lora模型,文生图、图生图、后期处理、图片信息,近乎完整的参数设置,以及图片完成后的功能按钮。 3.Dall-E-3,兼容dall-e-2,需要配置文件上传和存储功能,因为openai返回的链接有效期很短,过https://github.com/ademzhang/ChatGPT-Next-Web-Pro
11.是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现搞清楚这些问题其实非常重要,短期的意义是,多大的模型规模是合适的?根据Chinchilla的论文,你可以对比在GPT-3的1750亿参数中,可能是有不少冗余的,如果更小的模型也可以出现能力涌现,这也许能削减训练成本。 长期的意义在于,AI目前还是在线上,但迟早会与物理世界连接,你可以想象一个基于GPT-10的ChatGPT与波士顿动力或者https://36kr.com/p/2210585582301824
12.如何免费使用GPT4或ChatGPT4(2)进入GPT-4插件页面,点击Click to Create an Instance创建实例。 (3)按需填充相关参数配置,貌似使用默认的OpenAI的key无法使用,可能需要填写自己的key。完成参数填写点击Create即可使用ChatGPT聊天。 5. 在nat.dev上免费使用ChatGPT-4 nat.dev支持邮箱注册或者使用Google账号登录。曾经免费的nat.dev,现在也扛不住https://www.wbolt.com/how-to-use-gpt-4-free.html
13.ChatGPT兴起,创成式AI能否重塑工具软件底层逻辑?在ChatGPT推出之后,微软计划对OpenAI追加100亿美元投资并在旗下搜索、办公软件中探索融合应用场景。由于ChatGPT显现出的巨大应用潜力与可能性,全球广大应用厂商也均开始积极尝试接入OpenAI的技术接口,以期AI与其现有产品能够产生新的化学反应。国内市场亦快速跟进,百度宣布旗下对标产品文心一言将于3月完成内测、面向公众https://news.futunn.com/post/24629911?futusource=news_newspage_recommend
14.快科技资讯2023年02月14日Blog版资讯中心同时,在大模型的框架下,ChatGPT所使用的GPT模型,每一代参数量均高速扩张,预训练的数据量需求和成本亦快速提升。 国盛证券计算机分析师刘高畅、杨然在发表于2月12日的报告《Chatgpt 需要多少算力》中估算,GPT-3训练一次的成本约为140万美元,对于一些更大的LLM模型,训练成本介于200万美元至1200万美元之间。 https://news.mydrivers.com/blog/20230214.htm
15.chatgpt说它有上千亿的参数,是什么意思?简介:chatgpt说它有上千亿的参数,是什么意思? 最近在捣鼓深度学习,今天突然开窍,对于大模型、上千亿参数的理解顿悟了,所以才有了这篇文章。 一个通俗易懂的模型举例 先用一个最简单的例子来说明,例如身高和体重之间是有一定对应的关系的。 如果我们有了非常多身高与体重对应关系的数据,我们就可以运用这些数据得到https://developer.aliyun.com/article/1228733
16.人人看得懂的ChatGPT技术原理解析这是对支撑ChatGPT工作的机器学习模型的一段简略的介绍:以大型语言模型为基础,然后深入研究使GPT-3能够被训练的自注意力机制,再从人类的反馈中进行强化学习,这就是使ChatGPT与众不同的新技术。 大型语言模型 Large Language Models ChatGPT是一种机器学习自然语言处理模型的扩展,称为大语言模型(LLMs)。LLMs能够读https://blog.itpub.net/70018536/viewspace-2937077/