深度拆解AI算力模型:ChatGPT的核心壁垒是什么?

华西证券表示,ChatGPT核心壁垒包括,庞大的数据训练数据、底层算法Transformer、AI预训练模型(大模型)以及多模态数据协同。

事件概述

ChatGPT算法的核心壁垒

(2)底层算法Transformer,相较于传统神经网络综合特征提取能力、远距离特征捕获能力、语义特征提取能力,全部明显增强,正逐步取代RNN(循环神经网络)。

(3)AI预训练模型(大模型),本质是“大算力+强算法”结合的产物,对自然语言理解能力明显上升,谷歌BERT模型就是典型跨时代的例子,我们认为其是AIGC的初始应用算法。

(4)多模态数据协同,极大推动AIGC的内容多样性与通用性,让AIGC不只局限于文本和图像等单个部分,而是多应用相容。

不同类别AIGC算法比对

1、ChatGPT:训练模型为强化学习近端策略优化,可以理解成在“人脑思维”的基础上加入了“人类反馈系统”,是一种奖励模型,拥有175B参数,训练数据为语言文本。

2、LaDMA(谷歌Bard):参数方面为137B,奖励模型是人类评分机制,训练数据为对话数据。

3、图神经网络(GNN)作为科学领域预训练模型(大模型)备受瞩目,强大之处在于数据结构,其应用广阔例如推荐系统、药物发现、合成物发现、芯片设计等众多科学前沿领域。

国产ChatGPT生态正在形成

百度是少有预训练模型(大模型)语言训练能力的公司,已经经历多次迭代,参数方面,模型基于ERNIE3.0,拥有千亿级参数。预训练方面,具备海量知识沉淀和丰富场景的文心大模型,跨模态方面,已有地理-语言、视觉-语言、语音-语言等模型架构,已覆盖众多方向,例如自然语言处理、机器视觉等其他重大任务,此外,根据IDC数据,目前已有近百万开发者使用文心大模型,生态正在逐步繁荣,合作厂商覆盖科技、教育、工业、媒体、金融等诸多产业。

1.ChatGPT,深度拆解AI算力模型

1.1ChatGPT算法的核心壁垒

AI的完整算法生成分为五部分分别是数据收集、数据清洗、模型训练、模型测试、模型部署和反馈。

核心壁垒一,庞大的数据训练数据。

数据是所有人工智能(或大数据)的“燃料”,根据appen的数据,ChatGPT的前身GPT-3就使用了3,000亿单词、超过40T的大规模、高质量数据进行训练。ChatGPT在其基础上,加入了人工打标的监督学习,即对话式模型给出结果后,由训练师对结果做出评价并修改结果以更贴切对话内容。

第二,模型训练方面,ChatGPT强大的底层技术是Transformer算法,该算法正逐步取代RNN(循环神经网络)。

Transformer算法在神经网络中具备跨时代的意义:RNN和CNN已经广泛应用于序列模型、语言建模、机器翻译并取得不错效果,然而在算法上仍有一定限制和不足。Transformer具备跨时代的意义的原因是算法上添加了注意力机制,这种机制具备突破性的原因在于:

1、突破了RNN模型不能并行计算的限制;

2、相比CNN模型,关联所需的操作次数不随距离增长;

3、模型解释力度明显加强。从结果上看,根据CDSN数据,Transformer的综合特征提取能力、远距离特征捕获能力、语义特征提取能力,全部明显增强,因此此算法正逐步取代RNN算法,也是ChatGPT算法的底座。

第三,模型训练部分,AI预训练模型(大模型)引发了AIGC技术能力的质变。在该模型问世之前,具有使用门槛高、训练成本低、内容生成简单和质量偏低等问题。而在AIGC领域,AI预训练模型拥有巨大参数量模型,AI预模型可以实现多任务、多语言、多方式等至关重要的作用。

AI预训练模型的出正是人工智能发展的未来和趋势,AI预训练模型(大模型)即“大算力+强算法”结合的产物。大模型通常是在大规模无标注数据上进行训练,学习出一种特征和规则。基于大模型进行应用开发时,将大模型进行微调,如在下游特定任务上的小规模有标注数据进行二次训练,或者不进行微调,就可以完成多个应用场景的任务。

AI预训练模型的本质是机器对自然语言理解能力的不断提升:其根本原因除Transformer算法以外,还有就是参数量的大小,谷歌BERT网络模型的提出,使得参数量首次超过3亿规模,GPT-3模型超过百亿。此外,目前较火热AIGC的参数量已经超过千亿。

此外,参数量往往是计算空间的复杂程度,模型空间越复杂,往往意味着庞大的计算量,计算量和参数量呈现正比关系。这也是随着AI的功能强大,AI对算力呈现指数级别根本需求的本质原因。

此外,预训练模型(大模型),按照应用的基本类型分类:可分为1、自然语言处理(NLP),例如谷歌的LaMDA和PaLM、OpenAI的GPT系列;2、计算机视觉(CV),例如微软的Florence;3、多模态即融合文字、图片、音视频等多种内容形式,例如OpenAI的DALL-E2;此外,根据不同的领域的应用,可以将预训练模型进一步分类。

谷歌BERT作为自然语言处理(NLP)是预训练模型(大模型)的里程碑之作:BERT模型是谷歌2018年发布的的掩码语言模型,当时发布后,在许多自然语言理解任务上取得了最先进的性能,被当时誉为最先进的神经网络模型。其具有里程碑式结果如下,机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7%(绝对改进率5.6%)等。

BERT取得跨时代的意义是新的预训练模型:在BERT模型出世之前,现有的技术已经严重限制了预训练表示的能力,原因是标准语言模型架构是单向的,因此,Bert采用了Transformer技术的双向编码器表示。与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改。

模型的预训练核心机制是其具备里程碑的根本原因:语言建模(15%的标记被屏蔽,训练目标是在给定上下文的情况下预测原始标记)和下一句预测(训练目标是对两个文本跨度进行分类)依次出现在训练语料库中)。因此,BERT学习了上下文中单词和句子的潜在表示,例如语言推理、文本分类和基于序列到序列的语言生成任务,此外该阶段的计算成本明显高于微调。我们认为该算法是AIGC的初始应用算法。

第四,模型训练方面,多模态数据协同极大的推动AIGC的内容多样性与通用性:预训练模型更具备通用性、多才艺的根本原因得益于多模型技术(multimodaltechnology)的使用,即多模态表示图像、声音、语音融合的机器学习。2021年,OpenAI团队将跨模态深度学习(CLIP)开源,CLIP能够将文字和图像进行关联,比如将文字“狗”和图像狗进行关联。CLIP的优势有两点:

1、同时进行自然语言处理(NLP)和计算机视觉分析(CV),实现文本和图像的匹配;2、CLIP模型利用互联网的照片“文本-图像”进行训练,这为后续AIGC奠定基础,极大减少数据标注的工作量。

多模态同样具有跨时代的意义:因此,在多模态技术的支持下,预训练模型已经从早期单一的自然语言处理和机器视觉发展成自动生成图画、图像文字、音视频等多模态、跨模态图型。Dall·E2就是典型的代表,CLIP模型让文字和图片两个模态找到能够对话的交界点。

1.2不同类别AIGC算法比对

ChatGPT:ChatGPT基于GPT-3.5架构,拥有175B个参数。ChatGPT的训练功能强大的原因就是训练奖励模型数据收集设置略有不同、并加入了强化学习近端策略优化,可以理解成在“人脑思维”的基础上加入了“人类反馈系统”,是一种奖励模型。因此效果更加真实、模型的无害性实现些许提升,编码能力更强。

具体而言:此种强化学习的目的是获得“奖励”,因此ChatGPT加入了一个“奖励”模型,每一个问题都生成不同的答案,然后由人类对不同的答案进行排序,排序靠前的回答得分更高,排序较低的回答得分更低。

谷歌LaMDA是GoogleBard聊天机器人的程序语言模板:相同点同样是基于Transformer的神经语言模型,不同点,

1、参数方面由多达137B个参数组成,并在1.56T的公开可用对话数据和网络文档的单词上进行了预训练。LaMDA模型具有质量、安全和扎实性三个关键目标,每个目标有各自的衡量指标。

2、奖励模型:LaMDA的进展是通过收集来自预训练模型、微调模型和人类评分者(即人类生成的反应)对多轮双作者对话的反应来量化的——然后由针对上述定义的指标对一系列问题进行不同的人类评分。具体行为即对AI生成文本进行“点赞”或是“差评”。

3、训练数据:ChatGPT的训练方式是训练文本,而LaMDA的训练方式是训练对话,因此,可以说GPT-3专注于生成语言文本,LaMDA专注于生成对话。

此外图神经网络(GNN)作为科学领域预训练模型(大模型)备受瞩目:基本定义,图神经网络(GraphNeuralNetwork,GNN)是指使用神经网络来学习图结构数据,提取和发掘图结构数据中的特征和模式,满足聚类、分类、预测、分割、生成等图学习任务需求的算法总称。强大之处,图神经网络相较于普通神经网络最大的特点可以理解成“关系网”,即图神经网络不光可以反映自身的特征,也可以反映邻居结点的特征,换而言之,图结构表示的数据,使得可以进行基于图的解释和推理。

1.3.我国国产ChatGPT生态正在形成

我国国产ChatGPT生态正逐渐繁荣:由于ChatGPT具有跨时代的意义,根据网易新消息,百度在国内率先开发类似ChatGPT的产品,该项目中文名字为文心一言,英文名ERNIEBot。

百度是少有预训练模型(大模型)语言训练能力的公司:其文心大模型和OpenAI的GPT模型类似,在2019年就已经推出,并且已经迭代了多代,从单一的自然语言理解延申到多模态,包括视觉、文档、文图、语音等多模态多功能,因此“文心一言”所基于的ERNIE系列模型也已经具备较强泛化能力和性能。以最新发布的ERNIE3.0Zeus为例,参数方面,该模型迭代于ERNIE3.0,拥有千亿级参数。

国产ChatGPT文心一言功能强大:预训练模型方面,百度凭借海量的知识沉淀和丰富的场景推出文心大模型,根据IDC数据,其拥有5500亿条知识,且已经应用于百度搜索、信息流、智能驾驶、百度地图、小度等产品,此外,跨模态方面,百度已有文能生成、文档智能、地理-语言、视觉-语言、语音-语言等模型架构,根据IDC数据,目前已有近百万开发者使用文心大模型。

百度文心模型覆盖了多方向:

1、自然语言处理,具备语言理解能力与小说、摘要、文案创意、歌词、诗歌等能力,目前已在机器阅读理解、文本分类、语义相似度计算等60多项任务中应用;

2、机器视觉,已经能够应用于各行各业的文档、卡证、票据等图像文字识别和结构化理解;

3、跨模态,模型可应用在AI作图、地理-语言、视觉-语言、语音-语言应用;

4、其他任务,例如对话、生成文本、自然语言变成理解、化合物分子、蛋白分子的预训练模型、医药研发建模等多应用场景。

国产ChatGPT生态逐渐繁荣:目前已有诸多厂商开展合作,我们认为其商业模式同样为API接口收费,属于SAAS商业模式,合作厂商分别覆盖科技、教育、工业、媒体、金融等诸多产业,代表公司有宇信科技、汉得信息、金蝶、航天宏图、致远互联、东软集团等。

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

THE END
1.CHATGPT和算力有什么关系算力对于CHATGPT的训练、模型规模和推理速度都有一定的影响。较大的算力可以提供更快、更高质量的训练http://www.hlwwhy.com/ask/6709750.html
2.今天chatgpt一天都不行,算力还是不够啊今天chatgpt一天都不行,算力还是不够啊 全部讨论 在市场里价值投机 52分钟前 a股ai股价已经反应了,美股有点迟钝还没跟上 我爱水煮鱼 41分钟前 刀哥用付费的还是免费的 守正1997 57分钟前 豆包也是,今天这些平台出什么问题?被攻击了? 贝塔猪 今天22:05 https://xueqiu.com/9089343523/314558213
3.ChatGPT+电力:引领智能的革命ChatGPT算力和算法取得了哪些突破?ChatGPT究竟给企业带来哪些商业价值和市场机会?ChatGPT有哪些优势与不足?ChatGPT有哪些典型应用场景?ChatGPT应用遇到哪些数据安全、知识产权、风险管控的挑战?ChatGPT将给电力行业带来哪些发展机会与挑战?ChatGPT+电力将会带来哪些应用场景?数字化、智能化与电力能源化革命将会带来哪些http://www.boraid.cn/training/training_show_221954.html
4.ChatGPT的爆火,可离不开算力!戴尔科技集团chatgpt人工智能顶部 首页首页 ChatGPT的爆火,可离不开算力!戴尔科技集团 chatgpt 人工智能 2024-11-27 00:00 · 0次播放 发布于:江西省 拳击那点事 +订阅 +1 评论 全部 还没有人评论过,快来抢首评 写评论相关推荐 查看更多精彩内容 https://m.sohu.com/a/830759879_100114195
5.ChatGPT价格里掩盖的算力分布秘密新程序员【导读】当前,大语言模型的商业化持续进行,本文聚焦这一变革背景下的 ChatGPT 定价机制,深入剖析其核心技术内涵。通过细致研究 ChatGPT-3.5 turbo 采用的 Decode-Only 架构,作者系统地探讨了模型在接收到输入提示并生成相应输出的过程中,如何差异化利用 GPU 算力资源,进而阐明了支撑该定价策略的独特技术原理。 https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/136265725
6.ChatGPT行业报告:算力.pptx演讲人:日期:ChatGPT行业报告:算力目录引言ChatGPT行业概述算力技术发展算力在ChatGPT中应用算力市场需求与供给算力基础设施建设与运维算力成本、效益及投资回报结论与展望01引言本报告旨在深入探讨ChatGPT行业中的算力问题,分析其对ChatGPT技术发展和应用的影响,以及未来算力需求和趋势。目的随着人工智能技术的快速发展,Chathttps://www.renrendoc.com/paper/362740549.html
7.ChatGPT正在榨干算力,如何打赢这场算力攻坚战?互联网除了架构创新,芯片本身的升级迭代也非常重要。作为基石的底层芯片,需要足够“大”,AI大算力应用才能高楼平地起。 (ChatGPT研究框架 图源:浙商证券) 那么AI大算力说的“大”到底是多大? 以2020年发布的GPT3预训练语言模型为例,采用的是2020年最先进的英伟达A100 GPU,算力达到624 TOPS。2023年,随着模型预训练阶段模型https://news.iresearch.cn/yx/2023/03/463121.shtml
8.千亿巨头发布能力超ChatGPT?算力硬件由华为提供算力硬件由华为提供 摘要 【千亿巨头发布 能力超ChatGPT?】“俗话说‘男子汉大丈夫宁死不屈’,但是俗话又说‘男子汉大丈夫要能屈能伸’,请问这两句话怎么理解?”“如果一个小伙子跟女朋友吵架了,他应该宁死不屈还是能屈能伸?”科大讯飞大模型对上述有些刁钻的问题做出了“高情商”回答:星火大模型不偏不倚地回复https://finance.eastmoney.com/a/202305072714140597.html
9.ChatGPT服务器,深度拆解ChatGPT算力需求场景包括预训练、Finetune及日常运营。从ChatGPT实际应用情况来看,从训练+推理的框架出发,我们可以将ChatGPT的算力需求按场景进一步拆分为预训练、Finetune及日常运营三个部分: 1)预训练:主要通过大量无标注的纯文本数据,训练模型基础语言能力,得到类似GPT-1/2/3这样的基础大模型; https://www.51cto.com/article/747956.html
10.ChatGPTPlus突然停售,业内:微软算力不够ChatGPT Plus突然停售,业内:微软算力不够 钛媒体App 4月6日消息, ChatGPT官网停止Plus付费项目的购买。在升级界面,OpenAI表示“因需求量太大暂停了升级服务”。业内分析是微软算力不够了,运算越来越慢,所以暂缓注册。(中国基金报) *该内容仅供参考,不构成投资建议。请谨慎对待。https://m.tmtpost.com/nictation/6477388.html
11.杨元庆谈ChatGPT:需要普慧算力作为基础设施新浪科技讯 2月24日上午消息,在联想创投CEO年会上,联想集团董事长兼CEO杨元庆表示,ChatGPT火爆全球,其背后所需要的普慧算力基础设施恰好是联想已经布局多年的强项。 杨元庆称,打造“技术联想”一直是联想的创业初心。面对全球政经环境的变幻,面对技术和产业周期的日新月异,坚持用技术创新驱动发展,才能增强穿越周期的续https://laoyaoba.com/n/850108
12.智慧能源系列专题报告(一):算力篇:从CHATGPT看算力增长对电力行业的影本篇报告分析了ChatGPT 引发人工智能算力增长背后数据中心(IDC)需求增长对电力市场的影响,以及“双碳”和“东数西算”背景下“绿色IDC+一体化清洁能源基地”协同发展的必然性和可行性。 人工智能兴起、数字经济发展带动算力增长,智能算力、IDC 用电需求增长可观:ChatGPT 再次引发全世界对人工智能关注热潮,人工智能发展https://stock.hexun.com/2023-03-23/208058233.html
13.为你喝彩ChatGPT火爆?原来背后有强大的算力芯片!为你喝彩|ChatGPT火爆?原来背后有强大的算力芯片!北京卫视为你喝彩 2023-05-17 11:07:18 + 关注浏览1071次 打开App阅读全文 公安部:迅速查明珠海驾车冲撞行人案件,依法严惩凶手 三部门:因地制宜将酒店电视终端纳入当地消费品以旧换新补贴范围 中央气象台发布大雾黄色预警:北京河北等地部分地区有大雾 三部门有关https://m.btime.com/item/router?gid=47284duldr69tb84utj299b2358