没有这些,别妄谈做ChatGPT了模型训练

文|卖萌酱,转自公众号「夕小瑶的卖萌屋」

ChatGPT破圈爆火后,越来越多人开始问:

“啥时候出现中国版的ChatGPT?”

国内学术界和工业界,都纷纷躁动起来——百度、阿里、字节等大厂纷纷喊口号,一众创业公司也开始争做中国版OpenAI;学术界也在用行动来表明战斗力,比如前些天复旦大学推出的MOSS模型,一经开放试用,便冲上热搜。

有钱就能训出模型?

以美团大佬带资入组为代表,很多创业者和投资人盯上了ChatGPT,作为一个NLPer,我乐见其成,相信不用几个月,在热钱的助推下,NLP算法工程师的薪资要和芯片看齐了。

但我还是要泼个冷水,创业公司想做ChatGPT,想训练模型,不是有钱招几个算法就能搞定的。

先不说ChatGPT,只说较为成熟、参数量“较小”的BERT模型,其Large版本参数量“仅有”3.4亿,比现在的ChatGPT模型足足小了3个数量级。但如果一个从业者真正从0开始训练过BERT模型,那他一定不会认为训练BERT这个“小模型”是很容易的事情。

如今ChatGPT既没有公开代码,也没有公开训练数据,更没有公开模型参数,甚至都没有公开前置模型的模型参数,模型的体量还比BERT大了3个数量级。

ChatGPT没有捷径

相对创业团队,中国的互联网大厂在大模型方向有积累,有先发优势,但这绝不意味着高枕无忧。

在语言模型方面,国内各大厂大多沿着“以掩码语言模型MLM为核心的BERT路线”进行深耕,这种技术路线更加注重提升语言模型的文本理解能力,弱化文本生成能力。真正沿着ChatGPT这种生成式语言模型的路线深耕的研究团队,无论国内外,都不是太多。

这就注定了,ChatGPT的复现不是一朝一夕就能完成的,补功课很可能要从三年前OpenAI发布的GPT-3开始。如果没有GPT-3提供的世界知识和强大的长文本生成能力,训练ChatGPT就无异于建造空中楼阁了。

可惜,GPT-3至今也没有开源,未来也大概率不会开源了。要从头训这么一个1750亿参数的大型生成式语言模型,难度非常大。

有人可能要说,那我们训一个小点的模型,比如百亿参数的,可行吗?

目前来看不可行。AI的表现并非随着模型规模增加而线性增加,而是在参数规模超过特定临界值后显著提升,甚至涌现出小模型不具备的能力。比如论文表明,模型的规模至少要达到620亿参数量后,才可能训练出来思维链(Chain-of-Thought,CoT)能力。如下图所示:

而像Truthful(可信的)这种能力,甚至ChatGPT/GPT-3这样的模型规模都是不够的,要达到2800亿参数量才能涌现出这样的能力。

是的,复现和超越ChatGPT,目前来看没有捷径,必须一步一步来,首先要先把GPT-3搞定。

国内有人真正复刻了GPT-3?

是的,有且只有一家,阿里达摩院,他们从小到大(从base到175B),全面、完整地复刻了GPT-3,并且开放在魔搭社区上。

达摩院的复刻不是没有来由的,他们应该在大模型各个方向都进行了探索,布局完整。早在2021年4月就发布了首个中文语言大模型PLUG(当时参数是270亿)。该模型首次在中文语言理解榜单CLUE上面,以86.685分的成绩超越人类。

同年10月份,达摩院还探索实现了10万亿参数模型——M6,达摩院团队通过大量的底层优化和算法设计,仅仅使用了512卡便实现了这一庞大的模型工程。此前,M6模型将AI图片生成清晰度从OpenAIDALL·E的256×256成功提升到了1024×1024,效果十分惊艳。

不过,我们也要看到,算法可能只是硬币的一面,另一面是算力和云基础设施,不容忽视。

云基础设施

OpenAI的解决方式是向微软求助。同样的道理,国内如果有初创企业想要成为中国版OpenAI,自研ChatGPT,恐怕也要先跟几个云计算厂商好好聊一聊了。

没有做过大模型训练的人,可能会误以为多买几张A100卡就可以了。

当你实操的时候,你就会发现:

因此,没有一个面向AI高度优化的云计算平台,训练GPT-3和ChatGPT这种级别的模型怪兽,是相当不现实的。

这里面有两个重点,一个叫“面向AI”,另一个叫“高度优化”。

“高度优化”不必多说,考验的是一个云计算平台底层的优化能力,包括网络、存储、计算、通信等方方面面的系统化工程能力。

什么叫“面向AI”呢?

但是AI的计算不一样。对于AI而言,尤其是今天AI的训练:

也就是说,对于AI训练而言,尤其是今天那么大规模的训练,性能和规模是第一位的,传统云服务所涉及到的一些能力,是第二位的。

这里还是以达摩院为例,为什么达摩院能训练出多个万亿级模型,因为他们背后有阿里云的飞天智算平台做支撑。这是一个超大规模的高性能计算集群,是国内唯一能实现万卡规模的AI集群。

给你一万张A100,就能把ChatGPT训出来吗?答案无疑是否定的。万卡集群对于网络、存储和通信有极高的要求,弄得不好直接宕机。

贴一组数据。

数据层面,飞天智算平台的单集群算力峰值高达12EFLOPS,千卡并行效率达90%。针对ChatGPT这类数据密集型场景,还对大规模集群进行了大量数据IO优化,通过自研KSpeed和RDMA高速网络架构,最高可将存储IO性能提升10倍,将时延显著降低了90%。

此外,阿里云自研的高性能集合通信库ACCL和自研的网络交换机等,对万卡规模的AI集群提供了无拥塞、高性能的集群通讯能力。

除了底层硬件的AI集群,大模型训练非常依赖于软件平台层。飞天智算平台的机器学习平台PAI,专门针对AI大模型推理和训练场景进行针对性优化,可将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍,覆盖了全链路的AI开发工具与大数据服务。

可以说,这种面向AI实现高度优化的云平台,是ChatGPT这类大模型快速迭代的底层设施保障。

总结

千亿参数规模的大模型研发,需要底层庞大的算力、网络、存储、大数据、AI框架等智算基础设施的支持,也需要面向AI的针对性优化,这是一个囊括诸多技术领域的复杂系统工程。

ChatGPT之争已经超出了算法的范畴,它更是一个AI+云计算能力的全方位竞争,是技术生态层面的竞争。既需要强大的云基础设施能力的保障,又需要深厚的大模型技术积淀,两者缺一不可。

多说一句

作为NLPer,我能深刻的感受到,自从2020年GPT-3模型发布后,AI的研究生态正变得愈加封闭。虽然这对于已经取得竞争优势的商业化公司而言是利好,但对全人类实现AGI的终极梦想而言,却是一个不好的文化趋势。

客观上,我们需要承认与OpenAI的差距,正因如此,倘若有一个更加开放的大模型生态,使得能有更多的AI研究人员避免“重复造轮子”,那国内“ChatGPT复现”的进程无疑会大大加快。

THE END
1.ChatGPT价格里掩盖的算力分布秘密新程序员ChatGPT 是一个复杂的自然语言处理平台,利用先进的机器学习算法来分析和创建类似人类的文本或说话方式。它的功能非常广泛,包括文本推演、文本分类和语言翻译等。针对这类模型,合理的定价方式会是一个有意思的问题。 对此,OpenAI 给出的答案非常新颖,其 ChatGPT 平台并没有按调用次数定价,而是对数据处理进行定价,这让https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/136265725
2.CHATGPT和算力有什么关系算力对于CHATGPT的训练、模型规模和推理速度都有一定的影响。较大的算力可以提供更快、更高质量的训练http://www.hlwwhy.com/ask/6709750.html
3.从ChatGPT爆火看人工智能大势开放注册两个月用户数破亿,ChatGPT火爆的背后是人工智能算法、算力和数据的再一次融合升级。现象级的ChatGPT带动人工智能第三次浪潮的再次飞跃和各国、各企业的AI竞赛。在人工智能领域,全球目前尚未形成绝对主导的技术依赖和产业生态,我国的新型举国体制如能发挥更大的作用,将给AI的发展提供极为有力的支持。中国人工https://www.cnii.com.cn/gxxww/zgdxy/ztjj/202304/t20230420_464182.html
4.毕文轩:生成式人工智能的风险规制困境及其化解:以ChatGPT的规制为摘要:以ChatGPT为代表的生成式人工智能技术产生,在极大地提升人们工作效率的同时,也在相关领域带来了诸多法律风险。这种风险具体表现为:数据使用风险、生成内容滥用风险、算法滥用风险以及其他风险。目前我国虽然已经初步具备了有关人工智能的基本治理框架,但相关的理论以及实践仍在治理主体、治理规范设置、治理手段以及治理http://fzzfyjy.cupl.edu.cn/info/1035/15616.htm
5.一.ChatGPT只有有限的技术壁垒机器学习的核心算法是都是公开的算力是有后发优势的 每一年计算机的算力都在大量提升 只要晚几年甚至几个月就可以靠更强大的算力弥补很多东西 比如语音识别领域 小度 天猫精灵 小爱 Siri Alexa之间的差别都非常小 不能说小米和苹果在科技上已经拉平了 而是语音识别的难度已经很低了 二. ChatGPT只是一个处理自然语言的NLP模型 不可以进行预测 也https://xueqiu.com/3976999949/242252671
6.ChatGPT大模型训练数据集深度分析2024众所周知,算法、数据、算力是大模型时代的四方面重要因素。根据OpenAI 前期论文[16]和博客1介绍,ChatGPT 中数据集的规模和构建质量均高于以往的人工标注数据集。由此可见,在以 ChatGPT 为代表的大模型的训练中,数据集的收集、清洗和标注异常重要。本章将从预训练数据集以及人工标注的精调数据集两方面,详细介绍 http://www.360doc.com/content/24/0725/11/3066843_1129635578.shtml
7.2023ChatGPT人工智能新纪元.pdfChatGPT会成为科技行业的下一个颠覆者。 GPT的英文全称为GenerativePre-trainedTransformer(生成式预训 练转换器),是一种基于互联网可用数据训练的文本生成深度学习模 型。ChatGPT“脱胎”于OpenAI在2020年发布的GPT-3,任何外行都可以 使用GPT-3,在几分钟内提供示例,并获得所需的文本输出。 GPT-3刚问世时也引起了https://max.book118.com/html/2024/0112/5304213221011041.shtm
8.专题人工智能通用大模型(ChatGPT)的进展风险与应对报告PDF合集本合集集中研究大语言模型产品的研发要素和核心特征,并从语言模型准确性、数据基础、模型和算法能力、安全和隐私四个维度入手,拆分出12个细分维度,分别是语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法能力、安全和隐私。针对ChatGPT、Claude、Saghttps://www.cnblogs.com/tecdat/p/17694573.html
9.是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现但这次以ChatGPT为代表的一众大语言模型,突然突破了这个门槛,变得非常“聪明”。当然背后的原因有很多,比如自监督学习、Fine-tuning策略等等,但有一个重要的底层变化——大语言模型的“涌现”(Emergent)现象,就是说一些业界从未想象到的能力,例如基础的社会知识、上下文学习(ICL)、推理(CoT)等等,在训练参数和数据量https://36kr.com/p/2210585582301824