没有这些,别妄谈做ChatGPT了模型训练

文|卖萌酱,转自公众号「夕小瑶的卖萌屋」

ChatGPT破圈爆火后,越来越多人开始问:

“啥时候出现中国版的ChatGPT?”

国内学术界和工业界,都纷纷躁动起来——百度、阿里、字节等大厂纷纷喊口号,一众创业公司也开始争做中国版OpenAI;学术界也在用行动来表明战斗力,比如前些天复旦大学推出的MOSS模型,一经开放试用,便冲上热搜。

有钱就能训出模型?

以美团大佬带资入组为代表,很多创业者和投资人盯上了ChatGPT,作为一个NLPer,我乐见其成,相信不用几个月,在热钱的助推下,NLP算法工程师的薪资要和芯片看齐了。

但我还是要泼个冷水,创业公司想做ChatGPT,想训练模型,不是有钱招几个算法就能搞定的。

先不说ChatGPT,只说较为成熟、参数量“较小”的BERT模型,其Large版本参数量“仅有”3.4亿,比现在的ChatGPT模型足足小了3个数量级。但如果一个从业者真正从0开始训练过BERT模型,那他一定不会认为训练BERT这个“小模型”是很容易的事情。

如今ChatGPT既没有公开代码,也没有公开训练数据,更没有公开模型参数,甚至都没有公开前置模型的模型参数,模型的体量还比BERT大了3个数量级。

ChatGPT没有捷径

相对创业团队,中国的互联网大厂在大模型方向有积累,有先发优势,但这绝不意味着高枕无忧。

在语言模型方面,国内各大厂大多沿着“以掩码语言模型MLM为核心的BERT路线”进行深耕,这种技术路线更加注重提升语言模型的文本理解能力,弱化文本生成能力。真正沿着ChatGPT这种生成式语言模型的路线深耕的研究团队,无论国内外,都不是太多。

这就注定了,ChatGPT的复现不是一朝一夕就能完成的,补功课很可能要从三年前OpenAI发布的GPT-3开始。如果没有GPT-3提供的世界知识和强大的长文本生成能力,训练ChatGPT就无异于建造空中楼阁了。

可惜,GPT-3至今也没有开源,未来也大概率不会开源了。要从头训这么一个1750亿参数的大型生成式语言模型,难度非常大。

有人可能要说,那我们训一个小点的模型,比如百亿参数的,可行吗?

目前来看不可行。AI的表现并非随着模型规模增加而线性增加,而是在参数规模超过特定临界值后显著提升,甚至涌现出小模型不具备的能力。比如论文表明,模型的规模至少要达到620亿参数量后,才可能训练出来思维链(Chain-of-Thought,CoT)能力。如下图所示:

而像Truthful(可信的)这种能力,甚至ChatGPT/GPT-3这样的模型规模都是不够的,要达到2800亿参数量才能涌现出这样的能力。

是的,复现和超越ChatGPT,目前来看没有捷径,必须一步一步来,首先要先把GPT-3搞定。

国内有人真正复刻了GPT-3?

是的,有且只有一家,阿里达摩院,他们从小到大(从base到175B),全面、完整地复刻了GPT-3,并且开放在魔搭社区上。

达摩院的复刻不是没有来由的,他们应该在大模型各个方向都进行了探索,布局完整。早在2021年4月就发布了首个中文语言大模型PLUG(当时参数是270亿)。该模型首次在中文语言理解榜单CLUE上面,以86.685分的成绩超越人类。

同年10月份,达摩院还探索实现了10万亿参数模型——M6,达摩院团队通过大量的底层优化和算法设计,仅仅使用了512卡便实现了这一庞大的模型工程。此前,M6模型将AI图片生成清晰度从OpenAIDALL·E的256×256成功提升到了1024×1024,效果十分惊艳。

不过,我们也要看到,算法可能只是硬币的一面,另一面是算力和云基础设施,不容忽视。

云基础设施

OpenAI的解决方式是向微软求助。同样的道理,国内如果有初创企业想要成为中国版OpenAI,自研ChatGPT,恐怕也要先跟几个云计算厂商好好聊一聊了。

没有做过大模型训练的人,可能会误以为多买几张A100卡就可以了。

当你实操的时候,你就会发现:

因此,没有一个面向AI高度优化的云计算平台,训练GPT-3和ChatGPT这种级别的模型怪兽,是相当不现实的。

这里面有两个重点,一个叫“面向AI”,另一个叫“高度优化”。

“高度优化”不必多说,考验的是一个云计算平台底层的优化能力,包括网络、存储、计算、通信等方方面面的系统化工程能力。

什么叫“面向AI”呢?

但是AI的计算不一样。对于AI而言,尤其是今天AI的训练:

也就是说,对于AI训练而言,尤其是今天那么大规模的训练,性能和规模是第一位的,传统云服务所涉及到的一些能力,是第二位的。

这里还是以达摩院为例,为什么达摩院能训练出多个万亿级模型,因为他们背后有阿里云的飞天智算平台做支撑。这是一个超大规模的高性能计算集群,是国内唯一能实现万卡规模的AI集群。

给你一万张A100,就能把ChatGPT训出来吗?答案无疑是否定的。万卡集群对于网络、存储和通信有极高的要求,弄得不好直接宕机。

贴一组数据。

数据层面,飞天智算平台的单集群算力峰值高达12EFLOPS,千卡并行效率达90%。针对ChatGPT这类数据密集型场景,还对大规模集群进行了大量数据IO优化,通过自研KSpeed和RDMA高速网络架构,最高可将存储IO性能提升10倍,将时延显著降低了90%。

此外,阿里云自研的高性能集合通信库ACCL和自研的网络交换机等,对万卡规模的AI集群提供了无拥塞、高性能的集群通讯能力。

除了底层硬件的AI集群,大模型训练非常依赖于软件平台层。飞天智算平台的机器学习平台PAI,专门针对AI大模型推理和训练场景进行针对性优化,可将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍,覆盖了全链路的AI开发工具与大数据服务。

可以说,这种面向AI实现高度优化的云平台,是ChatGPT这类大模型快速迭代的底层设施保障。

总结

千亿参数规模的大模型研发,需要底层庞大的算力、网络、存储、大数据、AI框架等智算基础设施的支持,也需要面向AI的针对性优化,这是一个囊括诸多技术领域的复杂系统工程。

ChatGPT之争已经超出了算法的范畴,它更是一个AI+云计算能力的全方位竞争,是技术生态层面的竞争。既需要强大的云基础设施能力的保障,又需要深厚的大模型技术积淀,两者缺一不可。

多说一句

作为NLPer,我能深刻的感受到,自从2020年GPT-3模型发布后,AI的研究生态正变得愈加封闭。虽然这对于已经取得竞争优势的商业化公司而言是利好,但对全人类实现AGI的终极梦想而言,却是一个不好的文化趋势。

客观上,我们需要承认与OpenAI的差距,正因如此,倘若有一个更加开放的大模型生态,使得能有更多的AI研究人员避免“重复造轮子”,那国内“ChatGPT复现”的进程无疑会大大加快。

THE END
1.ChatGPT的工作原理解析chatgpt模型公式ChatGPT的核心是Transformer架构,它是一种专门设计用于处理序列数据的深度神经网络结构。与传统的循环神经网络(RNN)相比,Transformer具有以下优势: 并行计算能力强:Transformer可以并行处理输入序列中的所有元素,大大提高了训练速度。 长距离依赖建模能力强:Transformer通过自注意力机制可以捕捉输入序列中任意两个元素之间的关系https://blog.csdn.net/m0_62554628/article/details/142835504
2.最近爆红的ChatGPT到底是个什么玩意儿?这些基本概念你要知道序列应ChatGPT 可用于各种有趣和有创意的应用程序。以下是您可以使用 ChatGPT 执行的一些示例。 生成文本和响应 ChatGPT 最流行的用途之一是根据提示生成文本。通过提供提示,您可以要求 ChatGPT 生成文本作为响应。例如,您可以要求 ChatGPT 根据提示生成一个故事,或者您可以要求它完成一个句子或段落。 https://3g.163.com/dy/article/HT25VD1805561IOL.html
3.怎么让ChatGPT优化代码?Worktile社区怎么让ChatGPT优化代码 要让ChatGPT优化代码,可以尝试以下方法: 1. 代码优化技巧 首先,可以采用一些常见的代码优化技巧,例如使用合适的数据结构、减少循环次数、减少重复计算等等。这些技巧可以提高代码的执行效率,从而加快程序运行速度。 2. 算法优化 另外,也可以从算法的角度进行优化。尽量选择高效的算法,避免使用时间https://worktile.com/kb/ask/539173.html
4.OpenAI是如何胜过谷歌的?ChatGPT发展简史ChatGPT由GPT-3.5模型提供支持,GPT(Generative Pre-trained Transformer,生成式预训练变换器)是一种基于互联网可用数据训练的文本生成深度学习模型。名字中之所以有一个Transformer,是因为GPT就是OpenAI在谷歌的Transformer语言模型框架的基础上构建的。 该模型使用了"利用人类反馈强化学习(RLHF)"的训练方式,包括了:人类提https://aidc.shisu.edu.cn/7f/a0/c13626a163744/page.htm
5.ChatGPT使用量的计算ChatGPT聊天将消耗token(这里称之为积分),积分的计算比较复杂,发送的文本要计算积分,回来的文本也要计算积分。 如果是上下文聊天,每次发送文本都要包括之前的聊天记录,因此,积分消耗更多。 那么,具体一段文本怎么计算token数量呢?计算比较复杂,粗略来说,一个简单的英文单词就是一个token,复杂的英文单词可能是2~4个tohttps://www.douban.com/group/topic/288590324
6.ChatGPT模型大战:讯飞星火认知大模型百度文心一言能否击败GPT数值计算 推理解题 跨语言能力 文生图 总结 个人感受 一、你有使用过这种对话式AI吗?你对这类型AI有什么看法或感受? 二、对于“讯飞星火大模型将超越chatgpt?”这个命题你的态度是什么?简要说说原因 三、你认为这类型的人工智能对于现在的社会有哪些意义? https://blog.51cto.com/u_14943402/10335157
7.GPT图解大模型是怎样构建的■初代GPT:基于 Transformer 的单向预训练语言模型,采用生成式方法进行预训练。 ■ChatGPT:从GPT-3开始,通过任务设计和微调策略的优化,尤其是基于人类反馈的强化学习,实现强大的文本生成和对话能力。 ■GPT-4:仍基于Transformer架构,使用前所未有的大规模计算参数和数据进行训练,展现出比以前的AI模型更普遍的智能,不仅https://labs.epubit.com/bookDetails?id=UB836238e7a9d3d
8.云计算:ChatGPT的“中枢神经”开发侧,ChatGPT 生长在云上, 依赖于云计算服务,多年来OpenAI共收到了上百亿的投资,这些资金帮助 OpenAI 在平台上运行和训练其模型;产品侧,OpenAI 基于Cloud Native进行应用开发,基于云计算提供的便捷高性能计算运算模型和打磨算法,并对外销售产品和 API;而投资方基于 AI Native 来提升搜索、绘画等产品,未来会在Offhttps://m.thepaper.cn/newsDetail_forward_22342649
9.“整篇论文没有我自己写的东西”:论文是AI写的,算学术不端吗赵铭在ChatGPT的帮忙下完成了硕士毕业论文,他在国内一所985大学的理工科专业就读,毕业论文的内容是关于云计算。他总结了几种使用ChatGPT的方法,比如凑字数。 ChatGPT很适合“凑字数”,只要发出指令,一句观点便能扩充至几百字。但字数一多,它也会暴露出不足,很多受访者都反映它会重复说“车轱辘话”,“它废话是https://static.nfapp.southcn.com/content/202305/31/c7740338.html
10.解惑了——ChatGPT基于知识库提问token计算方法最近一直做知识库的训练,基于公司的场景一直做课程助手、课程推荐专家的训练。 慢慢了基于知识库回答的一些原理,也慢慢给自己解惑了。 首先,token的计算 众所周知,ChatGhttps://www.jianshu.com/p/519c4c606743
11.为何ChatGPT有时“一本正经地胡说八道”李祖超:对于ChatGPT是否能成为操作系统的新雏形这个问题,我的答案是积极的。操作系统的作用根据用户指令实现资源的分配以及计算的调度,那么ChatGPT发挥的作用是充当新的人机接口,更智能地实现用户指令的解译,减少用户的操作。从更长远来看,通过赋予ChatGPT管理系统资源如硬盘、CPU、外设等能力,将ChatGPT直接作为一种操作系https://m.gmw.cn/2023-02/23/content_1303292513.htm
12.ChatGPT标注指南来了!数据是关键ChatGPT 这个超大的模型可能暂时不需要,但我们在实际工作中很多模型(尤其是推荐)是小时或分钟级别更新的。对这种情况,应该在一开始设计的时候将这部分流程考虑进去。这部分更多是设计和工程问题,比如数据怎么更新,存储在哪里,如何获取,是否需要转换,是否需要定时清理,伸缩性,可用性等多个方面。http://www.360doc.com/content/23/0309/17/1071268750_1071268750.shtml
13.2023年爆火的软件“ChatGPT”到底是个什么呢?ChatGPT的详解以及2023年2月2日,微软官方公告表示,旗下所有产品将全线整合ChatGPT,除此前宣布的搜索引擎必应、Office外,微软还将在云计算平台Azure中整合ChatGPT,Azure的OpenAI服务将允许开发者访问AI模型。 2023年2月3日消息,IT 行业的领导者们担心,大名鼎鼎的人工智能聊天机器人 ChatGPT,已经被黑客们用于策划网络攻击时使用。 http://www.quwaifu.com/News/View/22739