算一笔细账,ChatGPT文心一言这类大模型到底要消耗多少GPU?澎湃号·湃客澎湃新闻

近日,有媒体援引知情人士消息称,特斯拉CEO马斯克在推特内部启动了一项人工智能项目,为此购买了约1万个GPU。

在此之前,在业界就不断流传各个互联网大厂都在紧急备货GPU,为其大模型开路。

地主家也没余粮。ChatGPT本身也一直被算力紧缺所困扰。4月6日,ChatGPT就"因需求量太大暂停了升级服务",并停止Plus付费项目的销售。

为了给ChatGPT提供算力保障,其金主爸爸微软可以说劳心劳力。据悉,微软用几亿美元,耗费上万张英伟达A100芯片打造超算平台,只为给ChatGPT和新版必应提供更好的算力。不仅如此,微软还在Azure的60多个数据中心部署了几十万张GPU,用于ChatGPT的推理。

事实上,算力紧张这件事情,是从一开始就伴随着ChatGPT。当初OpenAI选择与微软合作,算力就是一个至关重要的考虑因素。据悉,OpenAI在最初商量与微软合作时,OpenAI要求微软在Azure云计算平台上“腾出”足够的算力单独给它们使用,且确保它们不与Azure提供的其他服务产生冲突。

业界普遍认为,大模型是巨头们的“玩具”,动辄上亿元的投入,小玩家是上不了“赌桌”的。

但是,不要忘了ChatGPT这类大模型有两面,一方面是模型训练,另一方面是模型推理应用。动辄几亿的算力投入,还只是模型训练阶段。在模型推理应用阶段,对于算力的需求,要远远高于训练阶段。

也就是说,大模型的训练需要几亿打底,那要想将大模型进行规模化应用,比如支撑成百上千万用户的频繁使用,那需要的算力成本可能就是百亿量级了。

接下来,我们致力于搞清楚为什么ChatGPT这类大模型这么“吃”算力。尤其是要搞清楚在大模型的应用阶段,用户量、业务量跟底层算力需求是什么关系。在此基础上,我们来测算,要支撑足够的用户量和业务规模,到底需要多少算力(尤其是GPU)。

ChatGPT训练阶段的算力消耗

先来看看训练阶段的算力消耗。

训练大型模型需要大量的算力,因为需要处理海量的数据。训练这类模型所需的算力取决于以下因素:模型的规模(参数数量)、训练数据集的大小、训练轮次、批次大小。

在此,我们假定要训练一个千亿规模的大模型,用1PB数据进行训练,训练一次,并且在10天内完成训练。看看需要消耗多少算力,并计算这样的算力消耗,如果用英伟达的芯片,需要多少芯片。

首先,我们要了解一个概念,即FLOPs(浮点运算次数)。FLOPs用来衡量执行某个任务所需的计算量。假设一个千亿(1000亿)参数的大型模型,我们可以参考GPT-3。GPT-3中最大的模型(1750亿参数)的训练大约需要3.14*10^23次浮点运算(FLOPs)。

我们可以通过以下简化公式估算所需的FLOPs:

所需FLOPs=(千亿参数/1750亿参数)*3.14*10^23FLOPs

根据这个公式,我们得出训练一个千亿参数的模型大约需要1.8*10^23次浮点运算。

接下来,我们来看看英伟达的芯片。以英伟达A100GPU为例,其具有每秒19.5万亿次(19.5TFLOPs)的浮点运算能力。

要计算出需要多少个A100GPU来满足这个算力需求,我们可以使用以下公式:

如果希望在10天(约864000秒)内完成训练,可以按照以下计算方式得到所需GPU数量:

所需GPU数量=1.8*10^23FLOPs/(19.5*10^12FLOPs/s*864000s)

根据这个公式,在10天内训练1000亿参数规模、1PB训练数据集,大约需要10830个英伟达A100GPU。

接下来,我们来计算大模型的训练成本。

要计算训练一个千亿规模大型模型的总费用,我们需要考虑以下因素:GPU成本、其他硬件成本(如CPU、内存、存储等)、数据中心成本(如电力、冷却、维护等)、人力成本。

还是上面的例子,需要在10天内训练1000亿参数规模的大模型,总的成本如下:

GPU成本:

英伟达A100GPU的价格因供应商和购买数量而异,假设每个A100GPU的成本约为10000美元,那么10830个GPU的总成本约为:

10830*$10,000=$108,300,000

其他硬件成本:

GPU只是整个计算系统的一部分,我们还需要考虑其他硬件设备的成本。包括CPU、内存、存储、网络设备等。这些硬件成本可能占据整体硬件成本的一部分,假设其他硬件成本占GPU成本的20%,那么:其他硬件成本=$108,300,000*20%=$21,660,000

数据中心成本:

我们还需要考虑数据中心的成本,包括电力、冷却、维护等。假设这些成本占GPU成本的10%,那么:数据中心成本=$108,300,000*10%=$10,830,000

人力成本:

训练大型模型需要一支研究和工程团队,包括研究员、工程师、数据科学家等。人力成本因团队规模和地区差异而异。在这里,我们假设人力成本约为200万美元。

综合以上因素,训练一个千亿规模大型模型的总费用大约为:

总费用=GPU成本+其他硬件成本+数据中心成本+人力成本

=$108,300,000+$21,660,000+$10,830,000+$2,000,000

≈$142,790,000

因此,在10天内训练一个千亿规模的大型模型大约需要花费1.43亿美元。

从上面的分析可以发现,大模型真的是烧钱的游戏。先不考虑大模型的研发,就是要完成一次大模型的训练,首先就要有上亿的成本投入。

ChatGPT推理应用的算力消耗

需要指出的是,并不是模型训练好了就万事大吉。大模型的应用不是免费的,也是需要消耗算力的。

那么,在模型使用过程中,消耗的算力该怎么计算呢?

要计算一个用户向ChatGPT提问并获得回复所需的算力,我们需要考虑以下因素:模型规模(参数数量)、输入文本长度(问题长度)、输出文本长度(回复长度)、模型的计算复杂性。其他3个要素好理解,模型的计算复杂性是什么呢?模型计算复杂性指的是模型本身的复杂程度,它与模型维度(D)和模型层数(N)成正比。

用户一个问题,需要消耗的算力,可以用以下公式计算:所需FLOPs≈L*D*N。其中,L是用户问题的输入长度与模型回答的输出长度之和。

我们假设一个用户问ChatGPT一个50个字的问题,ChatGPT给出了1000字的回复。完成这样一次交互需要消耗的算力:

所需FLOPs≈L*D*N

≈1050*1280*96

≈128,448,000

因此,当输入问题长度为50个词,输出回复长度为1000个词时,处理一个用户向ChatGPT提问并获得回复所需的算力约为128.45百万次浮点运算(FLOPs)。

在此,我们需要澄清一个问题:ChatGPT回答不同类型的问题,只要问题长度和答案长度都一样,其消耗的算力都一样么?比如同样的问题和答案长度,写小说和做算术题这两类任务消耗的算力是否一样。

在理论上,只要输入问题长度和输出答案长度相同,处理不同类型问题所需的算力应该是相似的。这是因为,无论问题类型如何,Transformer模型的计算复杂性主要取决于输入序列长度(L)、模型维度(D)和模型层数(N)。不过,在实际应用中,根据问题的难度和特定上下文,某些任务可能需要更多的计算步骤来生成更准确的答案。

例如,在生成小说文本时,模型可能需要花费更多的计算资源来保持句子的连贯性、情感和文学风格。而在解决算术问题时,模型可能需要更多的计算资源来处理数学逻辑。然而,从整体来看,两者之间的计算复杂性差异相对较小。

因此,在问题长度和答案长度相同的情况下,不同类型的任务(如写小说和解决算术问题)消耗的算力可能存在一定差异,但总体上应该相差不大。

接下来,我们要进一步计算用户使用ChatGPT这类大模型的算力成本,也就是说用户问一个问题,到底要花多少钱。

一般而言,大模型都部署在云端,用户通过云服务来调用相应的计算资源。

要计算使用云计算服务调用ChatGPT的费用,我们需要了解云计算厂商的计算资源定价。这些价格可能因厂商、地区和资源类型而异。

我们以AmazonWebServices(AWS)的英伟达A100GPU为例,我们可以估算费用。

首先回顾我们之前的计算,对于一个输入长度为50字、输出长度为1000字的问题,处理一个请求所需的算力约为128.45百万次浮点运算(FLOPs)。

现在,我们需要了解GPU的性能以及在云计算平台上的计费方式。以AWS的g4dn实例为例,它使用的是英伟达T4GPU,每个GPU具有8.1TFLOPs的计算能力(这与我们之前提到的A100GPU(具有19.5TFLOPs的性能)不同。因此,我们需要对计算进行一些调整。)

假设我们需要在1秒内完成这个请求。那么,我们可以计算所需的T4GPU数量:

所需T4GPU数量=所需FLOPs/(8.1*10^12FLOPs/s)

≈128.45*10^6/(8.1*10^12)

≈0.00001585

根据AWS的价格策略,以美国东部地区为例,g4dn.xlarge实例(1个英伟达T4GPU)的按需价格约为0.526美元/小时。如果我们假设每个请求都需要1秒钟完成,那么一小时内可以处理的请求数量为:

每小时处理的请求数量=3600秒/1秒

=3600

根据这个估算,使用一个g4dn.xlarge实例处理请求的成本约为:

每小时成本=$0.526/3600请求

≈$0.00014611/请求

所以,使用云计算服务(以AWS为例)调用ChatGPT的能力,每处理一个输入长度为50字、输出长度为1000字的问题,大约需要消耗0.00014611美元的云计算资源。用1美元可以向ChatGPT提问约6843个问题。

最后,我们来讨论另一个问题,看看一个英伟达芯片可以同时支撑多少用户使用。

为了估算英伟达GPU可以同时支撑多少个用户,我们需要了解GPU的性能。以英伟达T4GPU为例,它具有8.1TFLOPs的计算能力。之前我们计算过,处理一个输入长度为50字、输出长度为1000字的问题所需的算力约为128.45百万次浮点运算(FLOPs)。

所需FLOPs=128.45*10^6FLOPs

T4性能=8.1*10^12FLOPs/s

用户数量=T4性能/所需FLOPs

=(8.1*10^12FLOPs/s)/(128.45*10^6FLOPs)

≈63,088

如果换成英伟达的A100(19.5TFLOPs的计算能力),则一块A100芯片可以同时支撑15万用户使用。

注意,以上计算都是建立在1000亿参数规模的大模型基础上的。目前的大模型参数规模普遍要超过1000亿,一块芯片能够支撑的用户数要小于上面的计算数值。

根据上面的计算,对于一个5000亿参数规模的大模型,一个A100芯片能够支撑的用户数量预计在3万左右。那要同时支撑1亿用户使用,需要的A100芯片数量就要超过3000个;如果使用T4GPU,那需要的芯片数量可能得上万。

中国在这场GPU盛宴中,不应该缺席

在这场大模型引发的算力军备竞赛当中,GPU芯片成为整个行业的焦点。

为此,数据猿依据JonPeddieResearch(JPR)报告(2020年)、各厂商官方网站和各种硬件评测网站的信息,统计了全球GPU市场的情况,包括主要厂商及其典型产品、性能参数、产品价格、出货量和市场占比,具体如下表:

在深度学习和人工智能的黄金时代,GPU犹如翱翔于浩渺天空的翅膀,赋予大模型行业强大的推进力。这些并行计算的神奇力量,像涓涓细流汇成磅礴大河,携带着无尽的智慧,助推人类探索知识的边界。在GPU的支持下,我们打破了次元壁,砥砺前行,迈向前所未有的高峰。

正是因为GPU强大的计算能力,大模型得以茁壮成长,从浅层神经网络发展到深度学习的复杂模型,从局限的应用领域扩展至无所不及的智能场景。今日的计算机视觉、自然语言处理、强化学习等领域的突破和革新,离不开GPU这位得力助手的默默付出。而大模型所孕育的智慧,正源源不断地流入各个行业。

在未来的道路上,GPU将继续担任大模型行业的引领者,携手开拓新的计算领域,为人类书写更为辉煌的篇章。

目前来看,在整个AIGC产业中,中国的应用生态建设是最强的,在大模型领域虽然跟OpenAI还有一定的差距,但追赶很快。但是,在GPU芯片领域,我们差距还非常大,且在短期内看不到赶超的希望。

THE END
1.CHATGPT对算力的需求如何颠覆芯片的底层架构设计,存算一体,正是突破算力瓶颈、摆脱存储宽带限制的一条路径。关键词之一,是顺势。 大部分读者都知道,算法、算力和数据是大模型时代的三大基础要素,ChatGPT引爆了算力要求的“核聚变”。当摩尔定律已经被逼近物理极限,如何突破算力瓶颈已成为业界重点突围的方向之一,因为模型计算量的增长速度,已经远http://www.hlwwhy.com/ask/6690483.html
2.ChatGPT价格里掩盖的算力分布秘密新程序员【导读】当前,大语言模型的商业化持续进行,本文聚焦这一变革背景下的 ChatGPT 定价机制,深入剖析其核心技术内涵。通过细致研究 ChatGPT-3.5 turbo 采用的 Decode-Only 架构,作者系统地探讨了模型在接收到输入提示并生成相应输出的过程中,如何差异化利用 GPU 算力资源,进而阐明了支撑该定价策略的独特技术原理。 https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/136265725
3.投资者提问:CHATGPT时代来临,对算力要求将巨幅提高,请问公司在CHATGPT时代来临,对算力要求将巨幅提高,请问公司在提高算力上有什么技术吗? 董秘回答(网宿科技SZ300017): 投资者,你好。公司自成立来坚持深耕数字经济基础设施层与平台层,包括数据中心,混合云和云管平台,CDN,云安全及边缘计算平台等。通过提供计算、存储、网络及安全等新一代信息技术服务,助力互联网客户、政府及企业https://finance.sina.cn/stock/relnews/dongmiqa/2023-03-09/detail-imykhfhw9958631.d.html
4.ChatGPT服务器,深度拆解AI大模型训练需求火热,智能算力规模增长有望带动AI服务器放量。 ChatGPT发布之后,引发了全球范围的关注和讨论,国内各大厂商相继宣布GPT模型开发计划。据各公司官网,2023年2月7日,百度宣布将推出ChatGPT类似产品“文心一言”,预计今年3月展开内测;2月8日阿里宣布阿里版ChatGPT正在研发中,目前处于内测阶段;2月9日,字节https://www.51cto.com/article/747956.html
5.ChatGPT正在榨干算力,如何打赢这场算力攻坚战?互联网在这之中表现最为亮眼的,莫过于从GPT-3迭代而来的ChatGPT,2022年底一出世就博得全球目光,无论是在模型预训练阶段,还是模型被访问阶段,ChatGPT都对算力提出“史无前例”的要求。 在模型预训练阶段,从GPT-1到GPT-3,从GPT-3 Small到GPT-3 175B,对算力的需求呈指数型增长。 https://news.iresearch.cn/yx/2023/03/463121.shtml
6.关于ChatGPT的五个最重要问题iPhone的交互方式和各种传感器,让iPhone慢慢变成了人类的身体的一部分,一个带来更多信息,高效交互的器官。ChatGPT已经接近目前人类调用算力和数据的最终极形态了,其应用方式本身当然是足够厉害的。我们在第二问,ChatGPT会取代哪些工作里,详细展开。 这里也牵涉到了一个重要的题外话,我们在讨论中发现,很多资深AI从业者,http://www.360doc.com/content/23/0317/18/1072439854_1072439854.shtml
7.令小雄王鼎民袁健:ChatGPT爆火后关于科技伦理及学术伦理的冷ChatGPT 能讲“人话”是基于 OpenAI 公司开发的一个 GPT-3.5 架构的大型语言模型,通过强化学习训练人工智能聊天机器人程序,能够广泛应用于业界和客户服务,基于 Transformer 架构的强大算力的语言模型,具有深度学习特质,葆有出色的语言理解和文本对话生成能力,ChatGPT 的语言理解和生成水平的便捷性能够更快更好地回答http://fzzfyjy.cupl.edu.cn/info/1035/15631.htm
8.中金:ChatGPT启新章,AIGC引领云硬件新时代一般服务器/存储器对于PCB的需求普通的多层板为主,随着ChatGPT大模型这类需要海量数据应用的发展,对算力的要求越来越高,对于大容量、高速、高性能的云计算服务器的需求将不断增长,对PCB的设计要求也将不断升级,提升对于高层数、大尺寸、高速材料等的应用。https://wallstreetcn.com/articles/3682574
9.一文读懂ChatGPT,你想知道的都在这里目前,百度宣布进军AIGC赛道,依托数据、算法和算力,全力打造AIGC产品“文心一言”,有利于为我国舆论安全保驾护航。 ? 完善监管机制,加强AI层面立法 首先,事前建立市场准入标准,由网信办牵头,成立人工智能风险评估委员会,综合评估ChatGPT进入市场后可能引发的风险,要求人工智能公司严格遵守各项运营要求。其次,事中应当https://weibo.com/ttarticle/p/show?id=2309404906876851847170
10.实测:ChatGPT的翻译能力怎么样?雷峰网另外,研究人员在Tp2中增加了一个额外命令,要求ChatGPT不要在翻译的句子上加双引号(在原始格式中经常发生)。尽管如此,ChatGPT依旧不稳定,如会将同一批次的多行句子翻译成单行。 图2:候选翻译提示 研究人员将三种不同的候选prompt与Flores-101的测试集在汉译英任务中的表现进行比较,图3显示了ChatGPT和其他三个翻译https://m.leiphone.com/category/ai/GftWDAq4bFtBelft.html
11.ChatGPT第二、遏制用户滥用政策。不允许文本要求生成暴力、成人或政治内容等视频。如果我们的过滤器发现可能违反我们政策的文本提示和图片上传,ChatGPT就会采用自动化和人工监控系统予以拒绝。 OpenAI认为:负责任的开发和安全监管是人工智能的重要组成部分,让用户对ChatGPT安全系统有信心。 https://www.jianshu.com/p/805abc3dcaae