ChatGPT的根基:算力基础决定上层应用

算力,成为制约AI发展的最关键因素。

如果算力能够大踏步地发展,在成本不变的情况下,把算力提升千倍万倍,比ChatGPT更高级别的智能就一定会出现。

如何能够千倍万倍地提升算力?

要想千倍万倍地提升算力,必然需要全新的算力平台!

一切系统的运行,可以归一到计算。微观的计算是性能,宏观的计算是算力。也因此,算力在数字经济、数字社会和数字政府等领域得到广泛应用,算力已经在赋能千行百业。

算力已成为继热力、电力之后新的关键生产力。计算力指数平均每提高1个百分点,数字经济和GDP将分别增长3.5‰和1.8‰。

如果我们把这张图再扩展一下,随着计算力指数扩展到1000甚至10000,可以看到计算力指数其实和GDP是指数级关系的。随着数字经济的进一步发展,未来,算力会成为决定GDP发展的最核心因素。

文献1:IDC、浪潮、清华全球产业研究院联合发布的《2021—2022全球计算力指数评估报告》

文献2:《算力:数字经济的核心生产力》,方正梁,人民邮电报

OpenAI在2018年发布的AI模型算力报告中指出:自2012年以来,AI训练的算力呈指数级增长,每3.4个月翻一倍。这意味着,从2012到2018年,AI算力增长了超过300,000倍。

与2012年的模型相比,2020年提出的模型需要600万倍的计算能力。据预测,从2023到2028年,AI所需算力将再增加100万倍。

ChatGPT的成功表明:大力真的可以出奇迹!

目前来看,是性能和成本,约束了ChatGPT的能力。

据测算,ChatGPT的单次回复至少要花费1美分。在未爆发前100多万用户的时候,OpenAI每天至少花费10万美元或每月300万美元用于运行成本。如今在数亿用户的情况下,其运行成本支出将超过50亿美金,这个成本对任何一家企业来说,基本上都无法接受。

如果将ChatGPT部署到谷歌搜索中,需要512,820个A100HGX服务器和总共4,102,568个A100GPU,服务器和网络的总硬件成本超过1,000亿美元。

算力成本高昂,限制了ChatGPT等AI模型的参数量,也限制了模型的智慧能力,还限制了模型的广泛使用。

如果有更低廉的成本,ChatGPT可以更加强大和智能,并且能得到更加广泛的普及。

文献1:MehonicA,KenyonAJ.Brain-inspiredcomputingneedsamasterplan.Nature2022;604(7905):255–260.

大部分观点认为:L5级别自动驾驶算力至少需要4,000TOPS;也有部分观点认为:需要超过10,000TOPS。

多域融合的综合算力需求预计会超过20,000TOPS。

算力需求是永无止境的,更多、更高的综合性需求,需要汽车平台算力快速并且持续不断地增长。

元宇宙需要源源不断的“算力能源”,算力支撑元宇宙虚拟世界的运行以及数字人等AI智能。要想实现元宇宙级别的体验,需将算力提升至少10,000倍。

这里举两个典型的案例。

案例一:沉浸感所需的16K效果,需要280.7Gbps带宽。目前的算力基础设施,还难以支撑如此高数据量的传输、处理和存储。

案例二:一方面,随着大模型持续发展,支撑单个数字人的AI算力需求急速增长;另一方面,随着元宇宙快速发展,数字人的数量也会猛增。也因此,元宇宙对AI算力的需求必然是多个数量级的提升。

文献2-3:电影《头号玩家》剧照、电影《失控玩家》剧照

1.5问题的本质

整个问题的本质在于:落后的算力基础和先进的业务需求之间的矛盾!

文献:电影《让子弹飞》剧照

2.1计算由单CPU串行走向多CPU并行

最开始是单核CPU流水线,在宏观视角下,单核CPU的指令流是串行执行的。

随着单核性能做到了极限,就不得不通过多核来提升性能,因此就从串行走向了并行,这里的并行是CPU同种架构的并行。

2.2再从同构并行到异构并行

再后来,同构多核效率依然不够,所以就有了通过各种硬件加速器来进行性能加速。

但硬件加速器无法独立工作,需要有CPU的协助,所以就成了CPU+XPU的异构计算。

GPU的劣势在于:性能效率比ASIC/DSA仍有很大差距;对一些轻量级异构加速场景,独立GPU显得太重。

2.3异构计算存在的问题

异构计算中的加速处理器,决定了整个系统的性能/灵活性特征:

GPU灵活性较好,但性能效率不够极致;并且性能也逐渐瓶颈。

DSA性能好;但灵活性差,难以适应算法的多变;架构碎片化;落地困难。

FPGA功耗和成本高,定制开发,落地案例少,通常用于原型验证。

ASIC功能完全固定,无法适应灵活多变的复杂计算场景。

更多异构共存,还存在计算孤岛的问题:

每个领域加速处理器只考虑本领域问题,难以考虑全局协同。就如瞎子摸象,每个领域加速器只看到自己的“绳子”、“柱子”、“扇子”等,这些东西最终能否组织出用户所需要的“大象”?

多芯片异构的中心节点问题。之前是CPU,性能不够,现在有了DPU这样的I/O加速器,但依然没有改变中心节点的架构问题。所有加速器交互通过中心节点,效率会降低,并且中心节点的处理能力就是整个系统的总处理能力,这约束了系统的处理性能。

单台(服务器)设备的物理空间有限,无法容纳多个物理的加速卡。需要整合。

2.4小结:计算架构的发展阶段

我们回顾一下从开始到现在,计算架构所经历的四个阶段:

阶段一:单CPU的串行阶段;

阶段二:多CPU的同构并行阶段;

阶段三:CPU+GPU的异构并行阶段;

阶段四:CPU+DSA的异构并行阶段;

第五个阶段,新一代的计算架构,应该是什么样子?我们将在后面的章节中揭晓。

3.1交通工具——一个形象的例子

如果一个交通工具,需要达到200公里每小时,这是汽车的覆盖范围;如果需要500公里每小时,一些专用的汽车(如跑车)也是可以做到的;但要达到2000公里每小时,汽车平台肯定是无法做到的,此刻我们需要更高级别的交通工具平台——飞机。

更高的速度需求,就需要更高级别的交通工具;同样的,更高的算力需求,就需要更加先进的芯片(架构)。

工艺进步,单芯片容纳的设计规模越来大;Chiplet封装,使得在单芯片层次,可以构建规模数量级提升的超大系统。

3.3需求牵引,工艺支撑,系统架构必然需要创新

量变必然引起质变,计算的架构必然走向一个新的阶段。

3.4各类处理器都在拓展自己的能力边界

处理器“内卷”:每个处理器引擎都突破了通常意义上的各自边界,侵入到其他处理器引擎的领地:

GPU集成CUDA核,还集成DSA性质的Tensor核。

这样,就在单个处理器内部,已经形成了某种程度上的异构和融合。

3.5从单异构走向多异构融合——超异构

要想高性能,势必降低灵活性,增加系统复杂度,使得系统难以驾驭。

并行计算难驾驭,异构并行难上加难。但我们不得不“迎难而上”,在难上再加难:为了更高的性能,计算架构需要进一步单异构走向多异构融合,形成超异构。

超异构难以驾驭,我们需要一些办法,来降低超异构系统的复杂度,使得超异构计算真正落地。

3.6(新)计算架构的发展阶段

在前面我们讲了计算架构的发展阶段,也因此,未来计算架构会走向第五个阶段:超异构并行。

超异构并行计算,是新一代的(也可能是终极一代的)计算架构。

4.1Intel在超异构的布局

IntelIPU和NVIDIADPU类似,可以看作是基础设施层DSA加速的集成平台。

Intel在超异构计算的布局分析如下表所示。

不谋全局者,不足谋一域;不谋万世者,不足谋一时。

4.2NVIDIA在超异构的布局

NVIDIA自动驾驶Thor芯片,由数据中心架构的CPU+GPU+DPU三部分组成,算力高达2000TFLOPS的超异构计算芯片。

上图采用Atlan架构图,Atlan和Thor架构相同,性能上有差异。

Thor是符合超异构计算理念的全球第一款产品!

在数据中心,由于服务器计算规模较大,目前还没有CPU+GPU+DPU的融合型产品,但趋势已经很明显:NVIDIAGraceHopper超级芯片是CPU+GPU,NVIDIA计划从BluefieldDPU四代起,把DPU和GPU两者集成成单芯片。

未来,Chiplet技术逐渐成熟,以及工艺的持续进步,CPU+GPU+DPU的超异构融合单芯片必然会出现。

数据在网络中流动,计算节点依靠数据流动来驱动计算,所有系统的本质是数据处理,那么所有的设备就都是DPU。

以DPU为基础,不断地融合CPU和GPU的功能,DPU会逐渐演化成数据中心统一的超异构处理器。

5.1微观性能和宏观算力

回归底层逻辑,我们该如何提升实际总算力?详细分析一下。

最后,是算力资源利用率。通过可扩展性,很好地跨芯片设备把资源集中起来;此外还需要尽可能标准化的架构,使得资源能够汇集;再通过跨平台能力的支持,实现宏观所有资源的统一的资源池。给软件提供最灵活的资源使用和管理方式,才能最大限度地实现计算资源的高利用率。

5.2计算机体系结构演进:从合到分,再从分到合

随着CPU和GPU逐渐走向性能瓶颈,图灵奖获得者JohnH.和DavidP.在2017年提出“计算机体系结构的黄金年代”,给出的解决方案是特定领域架构DSA。

但DSA架构分散的趋势会导致平台和生态的碎片化,这不利于芯片的大规模部署和成本摊销。

因此,我们认为,未来正确的趋势应该是从分离再回到融合。

5.3超异构融合芯片的典型功能

从系统视角出发,我们可以把系统中的众多工作任务划分为三类:

相对比较稳定的任务可以划归到基础设施层;

弹性应用加速层,灵活性处于两者之间。

5.4HPU与传统SOC的区别

HPU本质上也是SOC,但和传统的single-SOC相比,HPU是Multi-SOC融合而成的Macro-SOC。下表是HPU和传统SOC的典型区别。

5.5HPU应用场景广泛

5.5.1用在边缘等轻量服务器场景

自动驾驶汽车更像手机,还是更像服务器?

李克强院士提出智能网联汽车中国方案:通过边端深度协同,可以在单芯片能力较弱情况下,实现系统级能力更优。

在目前无法拿到最先进工艺的情况下,智能网联汽车系统解决方案是我们迈向智能+自动驾驶汽车时代的必由之路。

5.5.3超异构更加广泛的应用领域

公众号:软硬件融合;CPU灵活性好但性能较差,ASIC性能极致但灵活性差,鱼和熊掌如何兼得,同时兼顾性能和灵活性,我给出的方案是“软硬件融合”。软硬件融合不是说要软硬件紧耦合,相反,是要权衡在不同层次和粒度解耦之后,再更加充分的协同。

THE END
1.ChatGPT价格里掩盖的算力分布秘密新程序员【导读】当前,大语言模型的商业化持续进行,本文聚焦这一变革背景下的 ChatGPT 定价机制,深入剖析其核心技术内涵。通过细致研究 ChatGPT-3.5 turbo 采用的 Decode-Only 架构,作者系统地探讨了模型在接收到输入提示并生成相应输出的过程中,如何差异化利用 GPU 算力资源,进而阐明了支撑该定价策略的独特技术原理。 https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/136265725
2.ChatGPT算力,不是问题!这篇文章都是用事实来讲道理!很客观的一次分国产算力问题解决了! 我说解决,就是解决了! 已经解决了!听懂了? 很讽刺!ChatGPT个股,由于英伟达断供浪潮,都在担心美国制裁!杀了一个多星期! 可是,同样几乎全部用英伟达的紫光股份(新华三),反而新高了! 担心美国制裁,散户疯狂抛售自己的ChatGPT个股,可是同样是美国英伟达做底层的紫光股份,机构主导的,反而新高!是https://xueqiu.com/7802423132/244215278
3.ChatGPT服务器,深度拆解1、ChatGPT需要的服务器:AI训练型服务器+AI推理型服务器 随着计算场景扩展,算力硬件也在发生变化。在传统软件架构下,主要的模式都是CS模式,服务端大多是单机处理几千个轻量请求。而在边缘计算场景下,需要数万台服务器处理上亿个重负载请求。边缘计算机本质上是用CES模式取代CS模式,当前的互联网IT架构已经从CS模式https://www.51cto.com/article/747956.html
4.从ChatGPT爆火看人工智能大势开放注册两个月用户数破亿,ChatGPT火爆的背后是人工智能算法、算力和数据的再一次融合升级。现象级的ChatGPT带动人工智能第三次浪潮的再次飞跃和各国、各企业的AI竞赛。在人工智能领域,全球目前尚未形成绝对主导的技术依赖和产业生态,我国的新型举国体制如能发挥更大的作用,将给AI的发展提供极为有力的支持。中国人工https://www.cnii.com.cn/gxxww/zgdxy/ztjj/202304/t20230420_464182.html
5.中国工业新闻网ChatGPT的背后离不开算力的支撑。算力,是人工智能三大核心要素之一,被誉为人工智能“发动机”。近年来,青岛也在积极布局,加速打造全国人工智能算力、算法开发应用高地。华为技术有限公司就与青岛频频“牵手”,以强大的资源和行业影响力,助力青岛AI发展迈向新高度。 http://www.cinn.cn/dfgy/202304/t20230410_267675.shtml
6.中国版ChatGPT能否后来居上?综合全部资讯一言以蔽之,中国不仅具有在数据、算法、算力和应用方面追赶海外AI技术的硬实力,更拥有长期为AI时代保驾护航的文化基因。或许这种科技的潜力会让我们在AI技术领域后来居上,但是这种积淀了几千年的中华智慧,才是中国版ChatGPT走向世界的终极法宝。 当沸腾的水壶在瓦特眼里勾勒出蒸汽机的雏形,有谁会意识到工业革命的车轮https://www.p5w.net/roll/complex/202311/t20231114_5844656.htm