没有这些,别妄谈做ChatGPT了模型训练

文|卖萌酱,转自公众号「夕小瑶的卖萌屋」

ChatGPT破圈爆火后,越来越多人开始问:

“啥时候出现中国版的ChatGPT?”

国内学术界和工业界,都纷纷躁动起来——百度、阿里、字节等大厂纷纷喊口号,一众创业公司也开始争做中国版OpenAI;学术界也在用行动来表明战斗力,比如前些天复旦大学推出的MOSS模型,一经开放试用,便冲上热搜。

有钱就能训出模型?

以美团大佬带资入组为代表,很多创业者和投资人盯上了ChatGPT,作为一个NLPer,我乐见其成,相信不用几个月,在热钱的助推下,NLP算法工程师的薪资要和芯片看齐了。

但我还是要泼个冷水,创业公司想做ChatGPT,想训练模型,不是有钱招几个算法就能搞定的。

先不说ChatGPT,只说较为成熟、参数量“较小”的BERT模型,其Large版本参数量“仅有”3.4亿,比现在的ChatGPT模型足足小了3个数量级。但如果一个从业者真正从0开始训练过BERT模型,那他一定不会认为训练BERT这个“小模型”是很容易的事情。

如今ChatGPT既没有公开代码,也没有公开训练数据,更没有公开模型参数,甚至都没有公开前置模型的模型参数,模型的体量还比BERT大了3个数量级。

ChatGPT没有捷径

相对创业团队,中国的互联网大厂在大模型方向有积累,有先发优势,但这绝不意味着高枕无忧。

在语言模型方面,国内各大厂大多沿着“以掩码语言模型MLM为核心的BERT路线”进行深耕,这种技术路线更加注重提升语言模型的文本理解能力,弱化文本生成能力。真正沿着ChatGPT这种生成式语言模型的路线深耕的研究团队,无论国内外,都不是太多。

这就注定了,ChatGPT的复现不是一朝一夕就能完成的,补功课很可能要从三年前OpenAI发布的GPT-3开始。如果没有GPT-3提供的世界知识和强大的长文本生成能力,训练ChatGPT就无异于建造空中楼阁了。

可惜,GPT-3至今也没有开源,未来也大概率不会开源了。要从头训这么一个1750亿参数的大型生成式语言模型,难度非常大。

有人可能要说,那我们训一个小点的模型,比如百亿参数的,可行吗?

目前来看不可行。AI的表现并非随着模型规模增加而线性增加,而是在参数规模超过特定临界值后显著提升,甚至涌现出小模型不具备的能力。比如论文表明,模型的规模至少要达到620亿参数量后,才可能训练出来思维链(Chain-of-Thought,CoT)能力。如下图所示:

而像Truthful(可信的)这种能力,甚至ChatGPT/GPT-3这样的模型规模都是不够的,要达到2800亿参数量才能涌现出这样的能力。

是的,复现和超越ChatGPT,目前来看没有捷径,必须一步一步来,首先要先把GPT-3搞定。

国内有人真正复刻了GPT-3?

是的,有且只有一家,阿里达摩院,他们从小到大(从base到175B),全面、完整地复刻了GPT-3,并且开放在魔搭社区上。

达摩院的复刻不是没有来由的,他们应该在大模型各个方向都进行了探索,布局完整。早在2021年4月就发布了首个中文语言大模型PLUG(当时参数是270亿)。该模型首次在中文语言理解榜单CLUE上面,以86.685分的成绩超越人类。

同年10月份,达摩院还探索实现了10万亿参数模型——M6,达摩院团队通过大量的底层优化和算法设计,仅仅使用了512卡便实现了这一庞大的模型工程。此前,M6模型将AI图片生成清晰度从OpenAIDALL·E的256×256成功提升到了1024×1024,效果十分惊艳。

不过,我们也要看到,算法可能只是硬币的一面,另一面是算力和云基础设施,不容忽视。

云基础设施

OpenAI的解决方式是向微软求助。同样的道理,国内如果有初创企业想要成为中国版OpenAI,自研ChatGPT,恐怕也要先跟几个云计算厂商好好聊一聊了。

没有做过大模型训练的人,可能会误以为多买几张A100卡就可以了。

当你实操的时候,你就会发现:

因此,没有一个面向AI高度优化的云计算平台,训练GPT-3和ChatGPT这种级别的模型怪兽,是相当不现实的。

这里面有两个重点,一个叫“面向AI”,另一个叫“高度优化”。

“高度优化”不必多说,考验的是一个云计算平台底层的优化能力,包括网络、存储、计算、通信等方方面面的系统化工程能力。

什么叫“面向AI”呢?

但是AI的计算不一样。对于AI而言,尤其是今天AI的训练:

也就是说,对于AI训练而言,尤其是今天那么大规模的训练,性能和规模是第一位的,传统云服务所涉及到的一些能力,是第二位的。

这里还是以达摩院为例,为什么达摩院能训练出多个万亿级模型,因为他们背后有阿里云的飞天智算平台做支撑。这是一个超大规模的高性能计算集群,是国内唯一能实现万卡规模的AI集群。

给你一万张A100,就能把ChatGPT训出来吗?答案无疑是否定的。万卡集群对于网络、存储和通信有极高的要求,弄得不好直接宕机。

贴一组数据。

数据层面,飞天智算平台的单集群算力峰值高达12EFLOPS,千卡并行效率达90%。针对ChatGPT这类数据密集型场景,还对大规模集群进行了大量数据IO优化,通过自研KSpeed和RDMA高速网络架构,最高可将存储IO性能提升10倍,将时延显著降低了90%。

此外,阿里云自研的高性能集合通信库ACCL和自研的网络交换机等,对万卡规模的AI集群提供了无拥塞、高性能的集群通讯能力。

除了底层硬件的AI集群,大模型训练非常依赖于软件平台层。飞天智算平台的机器学习平台PAI,专门针对AI大模型推理和训练场景进行针对性优化,可将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍,覆盖了全链路的AI开发工具与大数据服务。

可以说,这种面向AI实现高度优化的云平台,是ChatGPT这类大模型快速迭代的底层设施保障。

总结

千亿参数规模的大模型研发,需要底层庞大的算力、网络、存储、大数据、AI框架等智算基础设施的支持,也需要面向AI的针对性优化,这是一个囊括诸多技术领域的复杂系统工程。

ChatGPT之争已经超出了算法的范畴,它更是一个AI+云计算能力的全方位竞争,是技术生态层面的竞争。既需要强大的云基础设施能力的保障,又需要深厚的大模型技术积淀,两者缺一不可。

多说一句

作为NLPer,我能深刻的感受到,自从2020年GPT-3模型发布后,AI的研究生态正变得愈加封闭。虽然这对于已经取得竞争优势的商业化公司而言是利好,但对全人类实现AGI的终极梦想而言,却是一个不好的文化趋势。

客观上,我们需要承认与OpenAI的差距,正因如此,倘若有一个更加开放的大模型生态,使得能有更多的AI研究人员避免“重复造轮子”,那国内“ChatGPT复现”的进程无疑会大大加快。

THE END
1.ChatGPT与GPT3的区别与优势gpt3chatgpt当前,大模型的研究处于快速迭代和发展之中,不仅在学术界,在工业界也得到了广泛应用。GPT-3和ChatGPT是这一趋势下的重要里程碑,展示了模型参数量与任务表现之间的紧密关系。 1.3 研究意义 深入理解GPT-3与ChatGPT的区别及其优势对于推进自然语言处理技术的发展具有重要意义。这些模型的出现不仅提升了现有任务的解决效率https://blog.csdn.net/universsky2015/article/details/140028578
2.ChatGPT技术原理ChatGPT是由GPTChatGPT技术原理 ChatGPT 是由 GPT-3 迭代来的,原有的 GPT-3 可能难以从文本中学会一些,这就导致了 GPT-3 这样的语言模型,。Cha 来源于CSDN博主 Runjavagohttp://t.cn/A6OjShjz 的博客http://t.cn/A6OjShjhhttps://weibo.com/1764241425/Nkh1r5viV
3.一招鉴别真假ChatGPT,简述ChatGPTGPTGPT2和GPT3GPT-3是一种自然语言生成模型,它是目前规模最大的预训练模型之一,可以生成高质量的自然语言文本,包括文章、诗歌、对话等。GPT-3的模型规模比ChatGPT大得多,拥有13亿甚至更多的参数,因此它的生成质量和多样性比ChatGPT更高。GPT-3还支持一些其他的自然语言任务,例如翻译、问答、语义搜索等。 http://www.360doc.com/content/23/0319/10/26635931_1072648229.shtml
4.chatgpt接口请求参数详解GPTAPI和ChatGPTAPI(即GPTGPT-3 API:必选参数为model,prompt可选(参见documentation) ChatGPT API(即GPT-3.5 API):所需的参数是model和messages(参见documentation) 在使用ChatGPT API(即GPT-3.5 API)时可以看到: prompt参数甚至不是一个有效的参数,因为它被messages参数替换。 https://juejin.cn/post/7249397451054940197
5.解析ChatGPT背后的技术演进GPT-1、GPT-2和GPT-3的训练数据和参数量级对比 3.4 ChatGPT OpenAI公司在GPT-3与ChatGPT之间发布了多个迭代版本,其中包括:2021年7月推出了Codex系列;2022年1月,引入RLHF(基于人工反馈的强化学习)得到了InstructGPT;2022下半年,推出了融合Codex和InstructGPT的ChatGPT,使用了基于人类反馈的强化学习的版本指令微调模型https://www.51cto.com/article/768469.html
6.ChatGPT原理理解和结构解读(2)加载预训练模型:将预训练的ChatGPT模型加载到内存中,并根据任务需求调整模型的超参数。 (3)设置微调模型:根据具体任务,对预训练模型进行微调,并设置成本函数或风险函数。 (4)训练模型:使用训练集对微调模型进行训练,并根据验证集的表现调整模型参数。 https://www.jianshu.com/p/0628b1bd2c48
7.一文读懂ChatGPT的前世今生行业动态新闻中心#8 GPT-3 2020年5月,OpenAI发表了一篇论文:Language Models are Few-Shot Learners (语言模型是小样本学习者)。 31位作者、75页、320万token、1750亿参数、数据集45TB,训练花了3640pfs-day,训练一次的费用保守估计是460万美元,总训练成本估计达到了1200 万美元。暴力出奇迹。此时微软已经投资OpenAI(2019年投了10https://www.ulucu.com/news/industry/what-is-chatgpt
8.ChatGPTNextWebPro:基于chatgptnext1.Midjourney,该功能基于ChatGPT-Midjourney,使用antd进行了完全的重构,界面更加合理,参数更加全面。 2.Stable-Diffussion,支持lora模型,文生图、图生图、后期处理、图片信息,近乎完整的参数设置,以及图片完成后的功能按钮。 3.Dall-E-3,兼容dall-e-2,需要配置文件上传和存储功能,因为openai返回的链接有效期很短,过https://gitee.com/vual/ChatGPT-Next-Web-Pro
9.chatgpt本地部署最低配置本地部署ChatGPT(Chat Generative Pre-trained Transformer)是指将ChatGPT模型部署到本地计算机上,使得用户可以在本地使用ChatGPT进行对话生成。本地部署具有一些优势,例如可以减少网络延迟、保护用户隐私,同时也可以在离线环境中使用。由于ChatGPT模型具有大量的参数和计算要求,合适的电脑配置是必要的。 http://chatgpt.cmpy.cn/article/2351568.html
10.GitHubademzhang/ChatGPTNextWebPro:基于chatgptnext1.Midjourney,该功能基于ChatGPT-Midjourney,使用antd进行了完全的重构,界面更加合理,参数更加全面。 2.Stable-Diffussion,支持lora模型,文生图、图生图、后期处理、图片信息,近乎完整的参数设置,以及图片完成后的功能按钮。 3.Dall-E-3,兼容dall-e-2,需要配置文件上传和存储功能,因为openai返回的链接有效期很短,过https://github.com/ademzhang/ChatGPT-Next-Web-Pro
11.是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现搞清楚这些问题其实非常重要,短期的意义是,多大的模型规模是合适的?根据Chinchilla的论文,你可以对比在GPT-3的1750亿参数中,可能是有不少冗余的,如果更小的模型也可以出现能力涌现,这也许能削减训练成本。 长期的意义在于,AI目前还是在线上,但迟早会与物理世界连接,你可以想象一个基于GPT-10的ChatGPT与波士顿动力或者https://36kr.com/p/2210585582301824
12.如何免费使用GPT4或ChatGPT4(2)进入GPT-4插件页面,点击Click to Create an Instance创建实例。 (3)按需填充相关参数配置,貌似使用默认的OpenAI的key无法使用,可能需要填写自己的key。完成参数填写点击Create即可使用ChatGPT聊天。 5. 在nat.dev上免费使用ChatGPT-4 nat.dev支持邮箱注册或者使用Google账号登录。曾经免费的nat.dev,现在也扛不住https://www.wbolt.com/how-to-use-gpt-4-free.html
13.ChatGPT兴起,创成式AI能否重塑工具软件底层逻辑?在ChatGPT推出之后,微软计划对OpenAI追加100亿美元投资并在旗下搜索、办公软件中探索融合应用场景。由于ChatGPT显现出的巨大应用潜力与可能性,全球广大应用厂商也均开始积极尝试接入OpenAI的技术接口,以期AI与其现有产品能够产生新的化学反应。国内市场亦快速跟进,百度宣布旗下对标产品文心一言将于3月完成内测、面向公众https://news.futunn.com/post/24629911?futusource=news_newspage_recommend
14.快科技资讯2023年02月14日Blog版资讯中心同时,在大模型的框架下,ChatGPT所使用的GPT模型,每一代参数量均高速扩张,预训练的数据量需求和成本亦快速提升。 国盛证券计算机分析师刘高畅、杨然在发表于2月12日的报告《Chatgpt 需要多少算力》中估算,GPT-3训练一次的成本约为140万美元,对于一些更大的LLM模型,训练成本介于200万美元至1200万美元之间。 https://news.mydrivers.com/blog/20230214.htm
15.chatgpt说它有上千亿的参数,是什么意思?简介:chatgpt说它有上千亿的参数,是什么意思? 最近在捣鼓深度学习,今天突然开窍,对于大模型、上千亿参数的理解顿悟了,所以才有了这篇文章。 一个通俗易懂的模型举例 先用一个最简单的例子来说明,例如身高和体重之间是有一定对应的关系的。 如果我们有了非常多身高与体重对应关系的数据,我们就可以运用这些数据得到https://developer.aliyun.com/article/1228733
16.人人看得懂的ChatGPT技术原理解析这是对支撑ChatGPT工作的机器学习模型的一段简略的介绍:以大型语言模型为基础,然后深入研究使GPT-3能够被训练的自注意力机制,再从人类的反馈中进行强化学习,这就是使ChatGPT与众不同的新技术。 大型语言模型 Large Language Models ChatGPT是一种机器学习自然语言处理模型的扩展,称为大语言模型(LLMs)。LLMs能够读https://blog.itpub.net/70018536/viewspace-2937077/