ChatGPT的根基：算力基础决定上层应用|chatgpt用的谁的算力_算命

算力，成为制约AI发展的最关键因素。

如果算力能够大踏步地发展，在成本不变的情况下，把算力提升千倍万倍，比ChatGPT更高级别的智能就一定会出现。

如何能够千倍万倍地提升算力？

要想千倍万倍地提升算力，必然需要全新的算力平台！

一切系统的运行，可以归一到计算。微观的计算是性能，宏观的计算是算力。也因此，算力在数字经济、数字社会和数字政府等领域得到广泛应用，算力已经在赋能千行百业。

算力已成为继热力、电力之后新的关键生产力。计算力指数平均每提高1个百分点，数字经济和GDP将分别增长3.5‰和1.8‰。

如果我们把这张图再扩展一下，随着计算力指数扩展到1000甚至10000，可以看到计算力指数其实和GDP是指数级关系的。随着数字经济的进一步发展，未来，算力会成为决定GDP发展的最核心因素。

文献1：IDC、浪潮、清华全球产业研究院联合发布的《2021—2022全球计算力指数评估报告》

文献2：《算力：数字经济的核心生产力》，方正梁，人民邮电报

OpenAI在2018年发布的AI模型算力报告中指出：自2012年以来，AI训练的算力呈指数级增长，每3.4个月翻一倍。这意味着，从2012到2018年，AI算力增长了超过300,000倍。

与2012年的模型相比，2020年提出的模型需要600万倍的计算能力。据预测，从2023到2028年，AI所需算力将再增加100万倍。

ChatGPT的成功表明：大力真的可以出奇迹！

目前来看，是性能和成本，约束了ChatGPT的能力。

据测算，ChatGPT的单次回复至少要花费1美分。在未爆发前100多万用户的时候，OpenAI每天至少花费10万美元或每月300万美元用于运行成本。如今在数亿用户的情况下，其运行成本支出将超过50亿美金，这个成本对任何一家企业来说，基本上都无法接受。

如果将ChatGPT部署到谷歌搜索中，需要512,820个A100HGX服务器和总共4,102,568个A100GPU，服务器和网络的总硬件成本超过1,000亿美元。

算力成本高昂，限制了ChatGPT等AI模型的参数量，也限制了模型的智慧能力，还限制了模型的广泛使用。

如果有更低廉的成本，ChatGPT可以更加强大和智能，并且能得到更加广泛的普及。

文献1：MehonicA,KenyonAJ.Brain-inspiredcomputingneedsamasterplan.Nature2022;604(7905):255–260.

大部分观点认为：L5级别自动驾驶算力至少需要4,000TOPS；也有部分观点认为：需要超过10,000TOPS。

多域融合的综合算力需求预计会超过20,000TOPS。

算力需求是永无止境的，更多、更高的综合性需求，需要汽车平台算力快速并且持续不断地增长。

元宇宙需要源源不断的“算力能源”，算力支撑元宇宙虚拟世界的运行以及数字人等AI智能。要想实现元宇宙级别的体验，需将算力提升至少10,000倍。

这里举两个典型的案例。

案例一：沉浸感所需的16K效果，需要280.7Gbps带宽。目前的算力基础设施，还难以支撑如此高数据量的传输、处理和存储。

案例二：一方面，随着大模型持续发展，支撑单个数字人的AI算力需求急速增长；另一方面，随着元宇宙快速发展，数字人的数量也会猛增。也因此，元宇宙对AI算力的需求必然是多个数量级的提升。

文献2-3：电影《头号玩家》剧照、电影《失控玩家》剧照

1.5问题的本质

整个问题的本质在于：落后的算力基础和先进的业务需求之间的矛盾！

文献：电影《让子弹飞》剧照

2.1计算由单CPU串行走向多CPU并行

最开始是单核CPU流水线，在宏观视角下，单核CPU的指令流是串行执行的。

随着单核性能做到了极限，就不得不通过多核来提升性能，因此就从串行走向了并行，这里的并行是CPU同种架构的并行。

2.2再从同构并行到异构并行

再后来，同构多核效率依然不够，所以就有了通过各种硬件加速器来进行性能加速。

但硬件加速器无法独立工作，需要有CPU的协助，所以就成了CPU+XPU的异构计算。

GPU的劣势在于：性能效率比ASIC/DSA仍有很大差距；对一些轻量级异构加速场景，独立GPU显得太重。

2.3异构计算存在的问题

异构计算中的加速处理器，决定了整个系统的性能/灵活性特征：

GPU灵活性较好，但性能效率不够极致；并且性能也逐渐瓶颈。

DSA性能好；但灵活性差，难以适应算法的多变；架构碎片化；落地困难。

FPGA功耗和成本高，定制开发，落地案例少，通常用于原型验证。

ASIC功能完全固定，无法适应灵活多变的复杂计算场景。

更多异构共存，还存在计算孤岛的问题：

每个领域加速处理器只考虑本领域问题，难以考虑全局协同。就如瞎子摸象，每个领域加速器只看到自己的“绳子”、“柱子”、“扇子”等，这些东西最终能否组织出用户所需要的“大象”？

多芯片异构的中心节点问题。之前是CPU，性能不够，现在有了DPU这样的I/O加速器，但依然没有改变中心节点的架构问题。所有加速器交互通过中心节点，效率会降低，并且中心节点的处理能力就是整个系统的总处理能力，这约束了系统的处理性能。

单台（服务器）设备的物理空间有限，无法容纳多个物理的加速卡。需要整合。

2.4小结：计算架构的发展阶段

我们回顾一下从开始到现在，计算架构所经历的四个阶段：

阶段一：单CPU的串行阶段；

阶段二：多CPU的同构并行阶段；

阶段三：CPU+GPU的异构并行阶段；

阶段四：CPU+DSA的异构并行阶段；

第五个阶段，新一代的计算架构，应该是什么样子？我们将在后面的章节中揭晓。

3.1交通工具——一个形象的例子

如果一个交通工具，需要达到200公里每小时，这是汽车的覆盖范围；如果需要500公里每小时，一些专用的汽车（如跑车）也是可以做到的；但要达到2000公里每小时，汽车平台肯定是无法做到的，此刻我们需要更高级别的交通工具平台——飞机。

更高的速度需求，就需要更高级别的交通工具；同样的，更高的算力需求，就需要更加先进的芯片（架构）。

工艺进步，单芯片容纳的设计规模越来大；Chiplet封装，使得在单芯片层次，可以构建规模数量级提升的超大系统。

3.3需求牵引，工艺支撑，系统架构必然需要创新

量变必然引起质变，计算的架构必然走向一个新的阶段。

3.4各类处理器都在拓展自己的能力边界

处理器“内卷”：每个处理器引擎都突破了通常意义上的各自边界，侵入到其他处理器引擎的领地：

GPU集成CUDA核，还集成DSA性质的Tensor核。

这样，就在单个处理器内部，已经形成了某种程度上的异构和融合。

3.5从单异构走向多异构融合——超异构

要想高性能，势必降低灵活性，增加系统复杂度，使得系统难以驾驭。

并行计算难驾驭，异构并行难上加难。但我们不得不“迎难而上”，在难上再加难：为了更高的性能，计算架构需要进一步单异构走向多异构融合，形成超异构。

超异构难以驾驭，我们需要一些办法，来降低超异构系统的复杂度，使得超异构计算真正落地。

3.6(新)计算架构的发展阶段

在前面我们讲了计算架构的发展阶段，也因此，未来计算架构会走向第五个阶段：超异构并行。

超异构并行计算，是新一代的（也可能是终极一代的）计算架构。

4.1Intel在超异构的布局

IntelIPU和NVIDIADPU类似，可以看作是基础设施层DSA加速的集成平台。

Intel在超异构计算的布局分析如下表所示。

不谋全局者，不足谋一域；不谋万世者，不足谋一时。

4.2NVIDIA在超异构的布局

NVIDIA自动驾驶Thor芯片，由数据中心架构的CPU+GPU+DPU三部分组成，算力高达2000TFLOPS的超异构计算芯片。

上图采用Atlan架构图，Atlan和Thor架构相同，性能上有差异。

Thor是符合超异构计算理念的全球第一款产品！

在数据中心，由于服务器计算规模较大，目前还没有CPU+GPU+DPU的融合型产品，但趋势已经很明显：NVIDIAGraceHopper超级芯片是CPU+GPU，NVIDIA计划从BluefieldDPU四代起，把DPU和GPU两者集成成单芯片。

未来，Chiplet技术逐渐成熟，以及工艺的持续进步，CPU+GPU+DPU的超异构融合单芯片必然会出现。

数据在网络中流动，计算节点依靠数据流动来驱动计算，所有系统的本质是数据处理，那么所有的设备就都是DPU。

以DPU为基础，不断地融合CPU和GPU的功能，DPU会逐渐演化成数据中心统一的超异构处理器。

5.1微观性能和宏观算力

回归底层逻辑，我们该如何提升实际总算力？详细分析一下。

最后，是算力资源利用率。通过可扩展性，很好地跨芯片设备把资源集中起来；此外还需要尽可能标准化的架构，使得资源能够汇集；再通过跨平台能力的支持，实现宏观所有资源的统一的资源池。给软件提供最灵活的资源使用和管理方式，才能最大限度地实现计算资源的高利用率。

5.2计算机体系结构演进：从合到分，再从分到合

随着CPU和GPU逐渐走向性能瓶颈，图灵奖获得者JohnH.和DavidP.在2017年提出“计算机体系结构的黄金年代”，给出的解决方案是特定领域架构DSA。

但DSA架构分散的趋势会导致平台和生态的碎片化，这不利于芯片的大规模部署和成本摊销。

因此，我们认为，未来正确的趋势应该是从分离再回到融合。

5.3超异构融合芯片的典型功能

从系统视角出发，我们可以把系统中的众多工作任务划分为三类：

相对比较稳定的任务可以划归到基础设施层；

弹性应用加速层，灵活性处于两者之间。

5.4HPU与传统SOC的区别

HPU本质上也是SOC，但和传统的single-SOC相比，HPU是Multi-SOC融合而成的Macro-SOC。下表是HPU和传统SOC的典型区别。

5.5HPU应用场景广泛

5.5.1用在边缘等轻量服务器场景

自动驾驶汽车更像手机，还是更像服务器？

李克强院士提出智能网联汽车中国方案：通过边端深度协同，可以在单芯片能力较弱情况下，实现系统级能力更优。

在目前无法拿到最先进工艺的情况下，智能网联汽车系统解决方案是我们迈向智能+自动驾驶汽车时代的必由之路。

5.5.3超异构更加广泛的应用领域

公众号：软硬件融合；CPU灵活性好但性能较差，ASIC性能极致但灵活性差，鱼和熊掌如何兼得，同时兼顾性能和灵活性，我给出的方案是“软硬件融合”。软硬件融合不是说要软硬件紧耦合，相反，是要权衡在不同层次和粒度解耦之后，再更加充分的协同。

THE END

ChatGPT的根基：算力基础决定上层应用

解密ChatGPT算力芯片技术

国家间的算力战争，为什么我们还没造出ChatGPT？gpu英伟达人工智能产业链人士

芯科技，解密ChatGPT畅聊之算力芯片

算一笔细账，ChatGPT文心一言这类大模型到底要消耗多少GPU？澎湃号·湃客澎湃新闻

你知道为什么在用ChatGPT的时候，是GPU提供算力而不是CPU

ChatGPT的根基：算力基础决定上层应用

关于ChatGPT的五个最重要问题

人人都能懂的ChatGPT解读腾讯云开发者社区

深度拆解AI算力模型：ChatGPT的核心壁垒是什么？

奇点来临：ChatGPT时代的机遇与挑战

ChatGPT之思：如何应用？何以规制？——“新一代人工智能技术ChatGPT的应用与规制”笔谈

ChatGPT两月排碳千吨？数据存储总提心吊胆？这场算力应用大赛或有解…

深信服安全GPT技术应用一文详解

ChatGPT背后的创新支撑机制及对我国的启示

刘庆峰：“讯飞的代码部分能力已超越ChatGPT”，大模型下一个战场在哪里？长三角