算力,成为制约AI发展的最关键因素。
如果算力能够大踏步地发展,在成本不变的情况下,把算力提升千倍万倍,比ChatGPT更高级别的智能就一定会出现。
如何能够千倍万倍地提升算力?
要想千倍万倍地提升算力,必然需要全新的算力平台!
一切系统的运行,可以归一到计算。微观的计算是性能,宏观的计算是算力。也因此,算力在数字经济、数字社会和数字政府等领域得到广泛应用,算力已经在赋能千行百业。
算力已成为继热力、电力之后新的关键生产力。计算力指数平均每提高1个百分点,数字经济和GDP将分别增长3.5‰和1.8‰。
如果我们把这张图再扩展一下,随着计算力指数扩展到1000甚至10000,可以看到计算力指数其实和GDP是指数级关系的。随着数字经济的进一步发展,未来,算力会成为决定GDP发展的最核心因素。
文献1:IDC、浪潮、清华全球产业研究院联合发布的《2021—2022全球计算力指数评估报告》
文献2:《算力:数字经济的核心生产力》,方正梁,人民邮电报
OpenAI在2018年发布的AI模型算力报告中指出:自2012年以来,AI训练的算力呈指数级增长,每3.4个月翻一倍。这意味着,从2012到2018年,AI算力增长了超过300,000倍。
与2012年的模型相比,2020年提出的模型需要600万倍的计算能力。据预测,从2023到2028年,AI所需算力将再增加100万倍。
ChatGPT的成功表明:大力真的可以出奇迹!
目前来看,是性能和成本,约束了ChatGPT的能力。
据测算,ChatGPT的单次回复至少要花费1美分。在未爆发前100多万用户的时候,OpenAI每天至少花费10万美元或每月300万美元用于运行成本。如今在数亿用户的情况下,其运行成本支出将超过50亿美金,这个成本对任何一家企业来说,基本上都无法接受。
如果将ChatGPT部署到谷歌搜索中,需要512,820个A100HGX服务器和总共4,102,568个A100GPU,服务器和网络的总硬件成本超过1,000亿美元。
算力成本高昂,限制了ChatGPT等AI模型的参数量,也限制了模型的智慧能力,还限制了模型的广泛使用。
如果有更低廉的成本,ChatGPT可以更加强大和智能,并且能得到更加广泛的普及。
文献1:MehonicA,KenyonAJ.Brain-inspiredcomputingneedsamasterplan.Nature2022;604(7905):255–260.
大部分观点认为:L5级别自动驾驶算力至少需要4,000TOPS;也有部分观点认为:需要超过10,000TOPS。
多域融合的综合算力需求预计会超过20,000TOPS。
算力需求是永无止境的,更多、更高的综合性需求,需要汽车平台算力快速并且持续不断地增长。
元宇宙需要源源不断的“算力能源”,算力支撑元宇宙虚拟世界的运行以及数字人等AI智能。要想实现元宇宙级别的体验,需将算力提升至少10,000倍。
这里举两个典型的案例。
案例一:沉浸感所需的16K效果,需要280.7Gbps带宽。目前的算力基础设施,还难以支撑如此高数据量的传输、处理和存储。
案例二:一方面,随着大模型持续发展,支撑单个数字人的AI算力需求急速增长;另一方面,随着元宇宙快速发展,数字人的数量也会猛增。也因此,元宇宙对AI算力的需求必然是多个数量级的提升。
文献2-3:电影《头号玩家》剧照、电影《失控玩家》剧照
1.5问题的本质
整个问题的本质在于:落后的算力基础和先进的业务需求之间的矛盾!
文献:电影《让子弹飞》剧照
2.1计算由单CPU串行走向多CPU并行
最开始是单核CPU流水线,在宏观视角下,单核CPU的指令流是串行执行的。
随着单核性能做到了极限,就不得不通过多核来提升性能,因此就从串行走向了并行,这里的并行是CPU同种架构的并行。
2.2再从同构并行到异构并行
再后来,同构多核效率依然不够,所以就有了通过各种硬件加速器来进行性能加速。
但硬件加速器无法独立工作,需要有CPU的协助,所以就成了CPU+XPU的异构计算。
GPU的劣势在于:性能效率比ASIC/DSA仍有很大差距;对一些轻量级异构加速场景,独立GPU显得太重。
2.3异构计算存在的问题
异构计算中的加速处理器,决定了整个系统的性能/灵活性特征:
GPU灵活性较好,但性能效率不够极致;并且性能也逐渐瓶颈。
DSA性能好;但灵活性差,难以适应算法的多变;架构碎片化;落地困难。
FPGA功耗和成本高,定制开发,落地案例少,通常用于原型验证。
ASIC功能完全固定,无法适应灵活多变的复杂计算场景。
更多异构共存,还存在计算孤岛的问题:
每个领域加速处理器只考虑本领域问题,难以考虑全局协同。就如瞎子摸象,每个领域加速器只看到自己的“绳子”、“柱子”、“扇子”等,这些东西最终能否组织出用户所需要的“大象”?
多芯片异构的中心节点问题。之前是CPU,性能不够,现在有了DPU这样的I/O加速器,但依然没有改变中心节点的架构问题。所有加速器交互通过中心节点,效率会降低,并且中心节点的处理能力就是整个系统的总处理能力,这约束了系统的处理性能。
单台(服务器)设备的物理空间有限,无法容纳多个物理的加速卡。需要整合。
2.4小结:计算架构的发展阶段
我们回顾一下从开始到现在,计算架构所经历的四个阶段:
阶段一:单CPU的串行阶段;
阶段二:多CPU的同构并行阶段;
阶段三:CPU+GPU的异构并行阶段;
阶段四:CPU+DSA的异构并行阶段;
第五个阶段,新一代的计算架构,应该是什么样子?我们将在后面的章节中揭晓。
3.1交通工具——一个形象的例子
如果一个交通工具,需要达到200公里每小时,这是汽车的覆盖范围;如果需要500公里每小时,一些专用的汽车(如跑车)也是可以做到的;但要达到2000公里每小时,汽车平台肯定是无法做到的,此刻我们需要更高级别的交通工具平台——飞机。
更高的速度需求,就需要更高级别的交通工具;同样的,更高的算力需求,就需要更加先进的芯片(架构)。
工艺进步,单芯片容纳的设计规模越来大;Chiplet封装,使得在单芯片层次,可以构建规模数量级提升的超大系统。
3.3需求牵引,工艺支撑,系统架构必然需要创新
量变必然引起质变,计算的架构必然走向一个新的阶段。
3.4各类处理器都在拓展自己的能力边界
处理器“内卷”:每个处理器引擎都突破了通常意义上的各自边界,侵入到其他处理器引擎的领地:
GPU集成CUDA核,还集成DSA性质的Tensor核。
这样,就在单个处理器内部,已经形成了某种程度上的异构和融合。
3.5从单异构走向多异构融合——超异构
要想高性能,势必降低灵活性,增加系统复杂度,使得系统难以驾驭。
并行计算难驾驭,异构并行难上加难。但我们不得不“迎难而上”,在难上再加难:为了更高的性能,计算架构需要进一步单异构走向多异构融合,形成超异构。
超异构难以驾驭,我们需要一些办法,来降低超异构系统的复杂度,使得超异构计算真正落地。
3.6(新)计算架构的发展阶段
在前面我们讲了计算架构的发展阶段,也因此,未来计算架构会走向第五个阶段:超异构并行。
超异构并行计算,是新一代的(也可能是终极一代的)计算架构。
4.1Intel在超异构的布局
IntelIPU和NVIDIADPU类似,可以看作是基础设施层DSA加速的集成平台。
Intel在超异构计算的布局分析如下表所示。
不谋全局者,不足谋一域;不谋万世者,不足谋一时。
4.2NVIDIA在超异构的布局
NVIDIA自动驾驶Thor芯片,由数据中心架构的CPU+GPU+DPU三部分组成,算力高达2000TFLOPS的超异构计算芯片。
上图采用Atlan架构图,Atlan和Thor架构相同,性能上有差异。
Thor是符合超异构计算理念的全球第一款产品!
在数据中心,由于服务器计算规模较大,目前还没有CPU+GPU+DPU的融合型产品,但趋势已经很明显:NVIDIAGraceHopper超级芯片是CPU+GPU,NVIDIA计划从BluefieldDPU四代起,把DPU和GPU两者集成成单芯片。
未来,Chiplet技术逐渐成熟,以及工艺的持续进步,CPU+GPU+DPU的超异构融合单芯片必然会出现。
数据在网络中流动,计算节点依靠数据流动来驱动计算,所有系统的本质是数据处理,那么所有的设备就都是DPU。
以DPU为基础,不断地融合CPU和GPU的功能,DPU会逐渐演化成数据中心统一的超异构处理器。
5.1微观性能和宏观算力
回归底层逻辑,我们该如何提升实际总算力?详细分析一下。
最后,是算力资源利用率。通过可扩展性,很好地跨芯片设备把资源集中起来;此外还需要尽可能标准化的架构,使得资源能够汇集;再通过跨平台能力的支持,实现宏观所有资源的统一的资源池。给软件提供最灵活的资源使用和管理方式,才能最大限度地实现计算资源的高利用率。
5.2计算机体系结构演进:从合到分,再从分到合
随着CPU和GPU逐渐走向性能瓶颈,图灵奖获得者JohnH.和DavidP.在2017年提出“计算机体系结构的黄金年代”,给出的解决方案是特定领域架构DSA。
但DSA架构分散的趋势会导致平台和生态的碎片化,这不利于芯片的大规模部署和成本摊销。
因此,我们认为,未来正确的趋势应该是从分离再回到融合。
5.3超异构融合芯片的典型功能
从系统视角出发,我们可以把系统中的众多工作任务划分为三类:
相对比较稳定的任务可以划归到基础设施层;
弹性应用加速层,灵活性处于两者之间。
5.4HPU与传统SOC的区别
HPU本质上也是SOC,但和传统的single-SOC相比,HPU是Multi-SOC融合而成的Macro-SOC。下表是HPU和传统SOC的典型区别。
5.5HPU应用场景广泛
5.5.1用在边缘等轻量服务器场景
自动驾驶汽车更像手机,还是更像服务器?
李克强院士提出智能网联汽车中国方案:通过边端深度协同,可以在单芯片能力较弱情况下,实现系统级能力更优。
在目前无法拿到最先进工艺的情况下,智能网联汽车系统解决方案是我们迈向智能+自动驾驶汽车时代的必由之路。
5.5.3超异构更加广泛的应用领域
公众号:软硬件融合;CPU灵活性好但性能较差,ASIC性能极致但灵活性差,鱼和熊掌如何兼得,同时兼顾性能和灵活性,我给出的方案是“软硬件融合”。软硬件融合不是说要软硬件紧耦合,相反,是要权衡在不同层次和粒度解耦之后,再更加充分的协同。