如今,大算力底座已成为AI大模型发展的“标配”。
(图:国内GPU公司天数智芯在WAIC2023上展示的板卡产品)
7月6日-8日举行的2023年世界人工智能大会(WAIC)昇腾分论坛上,华为轮值董事长胡厚崑表示,伴随大模型带来的生成式AI突破,AI正在进入一个新的时代。算力是AI产业创新的基础,大模型的持续创新,驱动算力需求的爆炸式增长。可以说,大模型训练的效率或者是创新的速度,根本上取决于算力的大小。中国的算力已经成为一个越来越稀缺的资源。
本届WAIC上,华为推出首个昇腾万卡AI集群。截至目前,昇腾AI集群已支撑全国25个城市的人工智能计算中心建设。据悉,昇腾AI原生孵化和适配了30多个大模型,目前中国有一半左右的大模型创新,都是由昇腾AI支持。
与华为昇腾不同,国内通用GPU公司天数智芯研发的天垓100芯片已经开始跑通多个大模型,包括智谱AI大模型ChatGLM,国外主流的LLaMA,以及北京智源研究院的Aquila等产品;而百度昆仑芯公司在今年6月披露,其产品矩阵已适配文心一言、ChatGLM、GPT等主流行业大模型。
“目前我们已经证明可以用了,不管他们的能不能买,或者卖不卖给中国,我们的产品现在已经在用起来了。”
基于目前国内AI大模型算力布局,无论是训练还是推理,AI大模型算力主要分为三派:
三是租用性价比更高的服务器云算力,补充算力不足情况。
那么,这么多的算力供应渠道,中国本土的AI芯片到底行不行?
据中国信通院数据,每1元的算力投入,可以带动3-4元的国家GDP(国内生产总值)经济产出,实现经济增长的倍增效应。麦肯锡则预测,生成式AI最终每年可为世界经济增加7.3万亿美元的价值。
而对于大模型企业来说,巨大的算力成本是首先要考虑的问题。
胡厚崑在开幕式上谈到,华为推出了对等平构架构,以突破传统以CPU为中心的异构计算带来的性能瓶颈,提升了整个计算的带宽,使得节点的性能可提升30%。同时,华为部署的昇腾AI集群实现10%的效率提升。
张平安指出,华为云在贵安、乌兰察布、安徽芜湖等地都建立了算力中心,训练效率领先于业界主流GPU的1.1倍,昇腾Al云服务整个算力达2000PFlops。
华为昇腾计算业务总裁张迪煊表示,基于昇腾AI,原生孵化和适配了30多个大模型,到目前为止,中国有一半左右的大模型创新,都是由昇腾AI来支持的。昇腾的生态也逐步发展壮大,有180万开发者在昇腾开发平台上工作;与300多所高校院所与昇腾开展合作,每年培养超过10万名专业的AI人才。
“现在大模型发展的核心三要素:算法、数据及算力,算力是底座。在6月9日,我们跟北京智源研究院,在北京发布了他们的AquilaCode-7B模型,用的就是我们天垓100这款产品在跑,这也充分体现了天数智芯产品的通用性。目前我们正在帮他们跑650亿参数的模型,预计10月份可以跑完。”盖鲁江表示,预计今年年底以及明年,天数智芯都会有新的产品推出来,而且对大模型算法做了硬件级优化。
如果不采用通用架构,客户进行平台切换门槛比较高。盖鲁江表示,天数智芯在第一阶段就走了一条兼容国际主流生态的路线,公司2022年全年确认收入在2.5亿元左右。“因为我是通用架构,基于我的硬件去做软件栈的开发,再在API接口层面兼容国际主流生态,这样其实让我们的下游客户能更方便地用起来,让他们的迁移成本很低。所以说在商业化这条路上,我们已经率先迈出了一步。”
今年7月7日获得中国互联网投资基金独家投资的通用GPU研发商上海登临科技,在WAIC现场展示了第二代通用GPUGoldwasser(高凛)系列产品。钛媒体App了解到,高凛二代已针对基于Transformer和生成式AI大模型进行专门优化,在性能有大幅提升,已于2022年流片,目前已开始规模化量产和商业客户验证。据现有客户测试结果,二代产品针对基于transformer类型的模型提供3-5倍的性能提升,大幅降低类ChatGPT及生成式AI应用的硬件成本。
例如,北京超级云计算中心官网披露,拥有超过50PFlops通用超算算力,超60万CPU核心数,超过20万算力用户;上海到2023年底,依托本市人工智能公共算力服务平台,接入并调度4个以上算力基础设施,可调度智能算力达到1000PFLOPS(FP16)以上;到2025年,上海市数据中心算力预计将超过18000PFLOPS(FP32)。
不过目前,国内AI算力、国产GPU芯片还存在制程工艺和产品规格限制、没有双精度浮点功能、没有CUDA这种完整生态、与其他芯片之间的解耦性较差、通信网络连接问题导致算力损耗高等挑战亟待解决。
启明创投合伙人叶冠泰表示,大模型时代,训练千亿参数、万亿参数的模型必不可少的就是算力,大模型参数规模的高速增长对GPU的能力不断提出更高的要求。大算力的GPU要支撑各种各样的模型,需要具备稳定性、扩展性、延迟控制、性价比等,展现出典型的“木桶理论”,而且大算力芯片的推广,需要整个上下游的生态支持。AI的时代已经到来,芯片公司需要和大模型公司紧密合作。
据毕马威和联想联手发布的报告数据显示,放眼全球,算力已成为各国科技战略布局重点。当前,美、中、欧、日基本稳居全球算力产业规模前四,美、中两国处在领先地位且中国算力规模增速明显领跑。各国算力投资或补贴计划均超千亿。
经初步测算,到2025年,数据中心、云计算、人工智能市场规模总计将突破2.5万亿元,算力核心产业规模将不低于4.4万亿元,关联产业规模可达24万亿元,成为与新能源汽车比肩的超万亿级高潜赛道。