ChatGPT算力成本巨大,成为云厂商的一大门槛,大厂如何选择

微软的Azure云服务为ChatGPT构建了超过10,000个NvidiaA100GPU芯片的AI计算集群。

今年2月,包括阿里巴巴和百度在内的中国企业宣布将开发类似ChatGPT的产品,或将投资研发生成式人工智能。在国内,AI算力、AI大模型、生成式AI被认为只有云厂商才有资格。华为、阿里、腾讯、字节跳动、百度都有云业务,理论上都有跑通AI算力、AI大模型、生成AI应用的能力。

但是有能力不代表可以跑到终点线。这需要长期的高成本投资。GPU芯片的价格是公开的,算力成本也很容易衡量。大型模型需要数据收集、手动标记和模型训练。这些软成本很难简单计算。生成式人工智能的投资规模通常高达数百亿。

GPU芯片数量决定了“智商”

AI大模型的推理和训练高度依赖英伟达的GPU芯片。缺少芯片会导致算力不足。计算能力不足意味着无法处理庞大的模型和数据量。最终的结果是AI应用存在智商差距。

多位云计算技术人员告诉记者,运行ChatGPT至少需要1万颗英伟达A100芯片。但是,拥有超过10,000颗GPU芯片的公司不超过5家。其中,最多只有一家公司拥有10,000个NvidiaA100GPU。

另一位大型服务器厂商人士表示,即使乐观估计,GPU储备最大的公司也不超过5万片,并以来自英伟达的中低端数据中心芯片(如英伟达A10))为主。这些GPU芯片分散在不同的数据中心,一个数据中心通常只配备数千颗GPU芯片。

此外,由于去年8月美国政府开始实施贸易限制,中国企业长期无法获得NVIDIAA100芯片。现有A100芯片储备全部为存货,剩余使用寿命约4-6年。

中国企业目前可以获得的最佳替代品是英伟达的A800芯片。A800被认为是A100的“阉割版”。2022年8月,在A100被禁止在中国市场销售后,英伟达在当年第三季度推出了专供中国市场使用的A800芯片。这款产品的计算性能与A100基本持平,但数据传输速度降低了30%。这会直接影响AI集群的训练速度和效果。

不过目前A800芯片在中国市场严重缺货。虽然是A100的“阉割版”,但A800在京东官网的售价却超过了8万元/件,甚至超过了A100的官方售价(1万美元/件)。即便如此,A800在京东官网依然处于断货状态。

一位云厂商人士告诉记者,A800的实际售价甚至高于10万元/片,而且价格还在上涨。A800目前在浪潮、新华三等国内服务器厂商手中属于稀缺产品,一次只能采购数百枚。

GPU数量或性能不足直接导致AI推理和模型训练的准确性不足。其结致使中国企业做出类似的对话机器人,机器人的“智商”也会远低于ChatGPT。国内云厂商高性能GPU芯片的短缺,正成为限制中国版ChatGPT诞生的最直接因素。

成本高企

AI算力和大模型是比云还烧钱的吞金猛兽。

即使有足够的高性能GPU,中国云厂商也将面临高昂的硬件采购成本、模型训练成本和日常运营成本。面对以上成本,有资本储备、战略选择和实际能力的企业不超过3家。

OpenAI可以做ChatGPT,背后微软提供资金和算力。2019年,微软向OpenAI投资了10亿美元。2021年,微软又进行一轮新投资,金额不详。今年1月,微软宣布未来几年将向OpenAI投资100亿美元。

对于云厂商来说,AI算力和大模型需要面临高昂的硬件采购成本、模型训练成本和日常运营成本。

第二,模型训练的成本。如果算法模型要足够准确,则需要进行多轮算法模型训练。一家外资云厂商的资深技术人员告诉记者,ChatGPT一个完整的模型训练成本超过1200万美元(约合人民币8000万元)。如果进行10次完整的模型训练,成本将高达8亿元。GPU芯片的价格是公开的,算力成本相对容易衡量。但是,大型AI模型还需要进行数据采集、人工标注、模型训练等一系列工作。这些软成本很难简单计算。具有不同效果的模型具有不同的最终成本。

也就是说,进入AI算力和AI规模化赛道,前期的硬件采购和集群建设成本高达数十亿元。后期的模型训练、日常运营、产品研发等成本也高达数十亿元。某管理咨询公司的技术战略合作伙伴告诉记者,生成人工智能的投资规模高达百亿。

微软大规模采购GPU构建智能计算集群,在业务逻辑上是可行的。2022年,微软在云计算基础设施上的支出超过250亿美元。当年微软的营业利润达到828亿美元,而微软的云营业利润超过400亿美元。微软的云盈利超过支出,在AI算力和大规模模型业务上的大规模投入与微软的财务状况相匹配。

微软AI计算有产品、有客户、有收入,形成新的增长点。微软客户通常会在云上租用数千个高性能GPU进行语言模型学习,以此使用他们自己的生成AI。

微软拥有AzureML和OpenAI。AzureML有200多家客户,包括制药公司拜耳和审计公司毕马威。AzureML连续四个季度收入增长超过100%。微软云甚至形成了“云-企业软件-AI计算”三个旋转的增长曲线。其中,公有云Azure营收增速约为30%-40%,软件业务营收增速约为50%-60%,AI算力营收增速超过100%。

中国企业对云基础设施的资本支出有限,投资智能计算集群和AI大模型需要分流有限的预算支出。更大的挑战不仅是中短期内无法盈利,还会亏损更多。

三家公司均未披露投资云基础设施的资本支出。假设这3家公司和亚马逊一样,50%的资本支出用于投资云基础设施,数据分别为266亿元、311亿元、56亿元。资本支出充裕的公司投资数十亿美元能负担得起,但对于资本支出不足的企业来说是一种负担。

国内已经宣布建设智能计算集群的企业有阿里云、华为、百度等,但智能计算集群的GPU芯片数量未知。2022年,各大云厂商都把增加毛利、减少亏损作为战略重点。现阶段购买高性能GPU和构建智能计算集群需要巨大的投资。不仅会加重损失,还需要依靠群体输血。这考验企业管理层的战略意志。

大模型高昂,先做小模型

华为、阿里、腾讯、字节跳动、百度都有云服务,理论上有中国版ChatGPT的实力。

云计算业内人士指出,几家有能力的公司也会有实际的战略考虑。比如腾讯、百度、字节跳动有云,数据量也很大,但云业务亏损,长期资金储备和战略意志存疑。华为依靠自研升腾芯片建立了大模型技术,但受“断供”影响,无法获得英伟达的GPU芯片,作为硬件厂商,缺乏互联网公司的数据积累。

由于以上限制,目前能够实现AI大模型商业化的公司寥寥无几。到最后,同时具备资本储备、战略意志和实践能力的企业将屈指可数。

在算力资源紧缺的情况下,可以优先投资行业市场,为企业客户提供服务。一位管理咨询公司的技术战略合作伙伴认为,ChatGPT只是一个对话机器人,商业应用场景的展示暂时有限。用户规模越大,成本越高,损失越大。如何在细分领域将AI算力和大模型商业化,是获得正现金流的关键。

中国市场AI算力规模化商业模式仍处于起步阶段。目前,国内已有少量自动驾驶、金融等领域客户开始使用AI算力。例如,小鹏汽车目前使用阿里云的智能计算中心进行自动驾驶模型训练。

一位数据中心产品经理认为,国内银行金融客户在反欺诈中大量使用模型训练技术,通常只需要租用数百个性能较低的GPU训练模型即可。也是AI计算和模型训练,是一种成本更低的方案。事实上,通用的大规模模型并不能解决特定行业的问题,金融、汽车、消费等各个领域都需要行业模型。

中国没有足够的高性能GPU来进行大规模AI模型训练,所以可以先在细分领域做小模型。人工智能技术的飞速发展已经超出了人们的认知。对于中国企业来说,根本之道还是要坚持持续布局从而达成战略性发力。

审核编辑:李倩

原文标题:ChatGPT算力成本巨大,成为云厂商的一大门槛,大厂如何选择

长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)

THE END
1.CHATGPT对算力的需求如何颠覆芯片的底层架构设计,存算一体,正是突破算力瓶颈、摆脱存储宽带限制的一条路径。关键词之一,是顺势。 大部分读者都知道,算法、算力和数据是大模型时代的三大基础要素,ChatGPT引爆了算力要求的“核聚变”。当摩尔定律已经被逼近物理极限,如何突破算力瓶颈已成为业界重点突围的方向之一,因为模型计算量的增长速度,已经远http://www.hlwwhy.com/ask/6690483.html
2.ChatGPT价格里掩盖的算力分布秘密新程序员【导读】当前,大语言模型的商业化持续进行,本文聚焦这一变革背景下的 ChatGPT 定价机制,深入剖析其核心技术内涵。通过细致研究 ChatGPT-3.5 turbo 采用的 Decode-Only 架构,作者系统地探讨了模型在接收到输入提示并生成相应输出的过程中,如何差异化利用 GPU 算力资源,进而阐明了支撑该定价策略的独特技术原理。 https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/136265725
3.投资者提问:CHATGPT时代来临,对算力要求将巨幅提高,请问公司在CHATGPT时代来临,对算力要求将巨幅提高,请问公司在提高算力上有什么技术吗? 董秘回答(网宿科技SZ300017): 投资者,你好。公司自成立来坚持深耕数字经济基础设施层与平台层,包括数据中心,混合云和云管平台,CDN,云安全及边缘计算平台等。通过提供计算、存储、网络及安全等新一代信息技术服务,助力互联网客户、政府及企业https://finance.sina.cn/stock/relnews/dongmiqa/2023-03-09/detail-imykhfhw9958631.d.html
4.ChatGPT服务器,深度拆解AI大模型训练需求火热,智能算力规模增长有望带动AI服务器放量。 ChatGPT发布之后,引发了全球范围的关注和讨论,国内各大厂商相继宣布GPT模型开发计划。据各公司官网,2023年2月7日,百度宣布将推出ChatGPT类似产品“文心一言”,预计今年3月展开内测;2月8日阿里宣布阿里版ChatGPT正在研发中,目前处于内测阶段;2月9日,字节https://www.51cto.com/article/747956.html
5.ChatGPT正在榨干算力,如何打赢这场算力攻坚战?互联网在这之中表现最为亮眼的,莫过于从GPT-3迭代而来的ChatGPT,2022年底一出世就博得全球目光,无论是在模型预训练阶段,还是模型被访问阶段,ChatGPT都对算力提出“史无前例”的要求。 在模型预训练阶段,从GPT-1到GPT-3,从GPT-3 Small到GPT-3 175B,对算力的需求呈指数型增长。 https://news.iresearch.cn/yx/2023/03/463121.shtml
6.关于ChatGPT的五个最重要问题iPhone的交互方式和各种传感器,让iPhone慢慢变成了人类的身体的一部分,一个带来更多信息,高效交互的器官。ChatGPT已经接近目前人类调用算力和数据的最终极形态了,其应用方式本身当然是足够厉害的。我们在第二问,ChatGPT会取代哪些工作里,详细展开。 这里也牵涉到了一个重要的题外话,我们在讨论中发现,很多资深AI从业者,http://www.360doc.com/content/23/0317/18/1072439854_1072439854.shtml
7.令小雄王鼎民袁健:ChatGPT爆火后关于科技伦理及学术伦理的冷ChatGPT 能讲“人话”是基于 OpenAI 公司开发的一个 GPT-3.5 架构的大型语言模型,通过强化学习训练人工智能聊天机器人程序,能够广泛应用于业界和客户服务,基于 Transformer 架构的强大算力的语言模型,具有深度学习特质,葆有出色的语言理解和文本对话生成能力,ChatGPT 的语言理解和生成水平的便捷性能够更快更好地回答http://fzzfyjy.cupl.edu.cn/info/1035/15631.htm
8.中金:ChatGPT启新章,AIGC引领云硬件新时代一般服务器/存储器对于PCB的需求普通的多层板为主,随着ChatGPT大模型这类需要海量数据应用的发展,对算力的要求越来越高,对于大容量、高速、高性能的云计算服务器的需求将不断增长,对PCB的设计要求也将不断升级,提升对于高层数、大尺寸、高速材料等的应用。https://wallstreetcn.com/articles/3682574
9.一文读懂ChatGPT,你想知道的都在这里目前,百度宣布进军AIGC赛道,依托数据、算法和算力,全力打造AIGC产品“文心一言”,有利于为我国舆论安全保驾护航。 ? 完善监管机制,加强AI层面立法 首先,事前建立市场准入标准,由网信办牵头,成立人工智能风险评估委员会,综合评估ChatGPT进入市场后可能引发的风险,要求人工智能公司严格遵守各项运营要求。其次,事中应当https://weibo.com/ttarticle/p/show?id=2309404906876851847170
10.实测:ChatGPT的翻译能力怎么样?雷峰网另外,研究人员在Tp2中增加了一个额外命令,要求ChatGPT不要在翻译的句子上加双引号(在原始格式中经常发生)。尽管如此,ChatGPT依旧不稳定,如会将同一批次的多行句子翻译成单行。 图2:候选翻译提示 研究人员将三种不同的候选prompt与Flores-101的测试集在汉译英任务中的表现进行比较,图3显示了ChatGPT和其他三个翻译https://m.leiphone.com/category/ai/GftWDAq4bFtBelft.html
11.ChatGPT第二、遏制用户滥用政策。不允许文本要求生成暴力、成人或政治内容等视频。如果我们的过滤器发现可能违反我们政策的文本提示和图片上传,ChatGPT就会采用自动化和人工监控系统予以拒绝。 OpenAI认为:负责任的开发和安全监管是人工智能的重要组成部分,让用户对ChatGPT安全系统有信心。 https://www.jianshu.com/p/805abc3dcaae