跑ChatGPT体量模型，从此只需一块GPU：加速百倍的方法来了磁盘内存gpu|chatgpt的算力要求_算命

1750亿参数，只需要一块RTX3090，ChatGPT终于不再是大厂专属的游戏？

计算成本是人们打造ChatGPT等大模型面临的重大挑战之一。

据统计，从GPT进化到GPT-3的过程也是模型体量增长的过程——参数量从1.17亿增加到了1750亿，预训练数据量从5GB增加到45TB，其中GPT-3训练一次的费用是460万美元，总训练成本达1200万美元。

除了训练，推理也很花钱。有人估算，现在OpenAI运行ChatGPT的算力费用每天就有10万美元。

虽然FlexGen加速后的大模型看起来仍然很慢——跑1750亿参数的语言模型时每秒1个token，但令人印象深刻的是，它已经把不可能变成了可能。

传统上，大语言模型（LLM）推理的高计算和内存要求使人们必须使用多个高端AI加速器进行训练。本研究探索了如何将LLM推理的要求降低到一个消费级GPU并实现实用性能。

近日，来自斯坦福大学、UCBerkeley、苏黎世联邦理工学院、Yandex、莫斯科国立高等经济学院、Meta、卡耐基梅隆大学等机构的新研究提出了FlexGen，这是一种用于运行有限GPU内存的LLM的高吞吐量生成引擎。

通过聚合来自GPU、CPU和磁盘的内存和计算，FlexGen可以在各种硬件资源限制下灵活配置。通过线性规划优化器，它搜索存储和访问张量的最佳模式，包括权重、激活和注意力键/值（KV）缓存。FlexGen将权重和KV缓存进一步压缩到4位，精度损失低到可以忽略不计。与最先进的offloading系统相比，FlexGen在单个16GBGPU上运行OPT-175B的速度提高了100倍，并首次实现了1token/s的实际生成吞吐量。如果提供了更多的分布式GPU，FlexGen还带有流水线并行runtime，以允许在解码时进行超线性扩展。

简介

近年来，大语言模型在广泛的任务中表现出卓越的性能。LLM在展现出前所未有的通用智能的同时，也让人们在构建时面临着前所未有的挑战。这些模型可能有数十亿甚至数万亿个参数，这导致运行它们需要极高的计算和内存要求。例如，GPT-175B（GPT-3）仅用于存储模型权重就需要325GB的内存。要让此模型进行推理，至少需要五块英伟达A100（80GB）和复杂的并行策略。

降低LLM推理资源需求的方法是最近人们经常讨论的内容。这些努力分为三个方向：

（1）模型压缩以减少总内存占用量；

（2）协同推理，通过去中心化分摊成本；

（3）Offloading以利用CPU和磁盘的内存。

这些技术显着降低了使用LLM的计算资源需求。然而，人们通常假设模型适合GPU内存，而现有的基于offloading的系统仍然难以使用单块GPU以可接受的吞吐量运行1750亿参数规模的模型。

在新研究中，作者专注于高吞吐量生成推理的有效offloading策略。当GPU显存不够用时，我们需要将其卸载到二级存储，通过部分加载的方式，逐段进行计算。在典型的机器上，内存层次结构分为三级，如下图所示。高级内存速度快但稀缺，低级内存速度慢但充裕。

在FlexGen中，作者不追求低延迟，而是瞄准面向吞吐量的场景，这些场景在基准测试、信息提取、数据整理等应用中很受欢迎。实现低延迟对于offloading来说本质上是一个挑战，但是对于面向吞吐量的场景，可以大大提高offloading的效率。图1说明了三个具有offloading的推理系统的延迟吞吐量权衡。通过仔细的调度，I/O成本可以通过大量输入分摊并与计算重叠。在研究中，作者展示了就单位算力成本而言，单块消费级GPU吞吐量优化的T4GPU效率要比云上延迟优化的8块A100GPU的效率高4倍。

图1.OPT-175B（左）和OPT-30B（右）上三个基于offloading的系统的延迟和吞吐量权衡。FlexGen实现了新的帕累托最优边界，OPT-175B的最大吞吐量提高了100倍。由于内存不足，其他系统无法进一步提高吞吐量。

尽管已有研究在训练的背景下讨论了offloading的延迟-吞吐量权衡，但尚未有人将其用于生成LLM推理，这是一个截然不同的过程。由于LLM的自回归性质，生成推理提出了独特的挑战。除了存储所有参数外，它还需要顺序解码并维护一个大的注意力键/值缓存（KV缓存）。现有的offload系统都无法应对这些挑战，因此它们执行过多的I/O，只能实现远低于硬件能力的吞吐量。

为此，在新方法FlexGen上，人们提出了一种用于LLM推理的offloading框架。FlexGen聚合来自GPU、CPU和磁盘的内存，并能有效地调度I/O操作，作者也讨论了可能的压缩方法和分布式管道并行性。

该研究的主要贡献如下：

2、研究表明，可以将OPT-175B等LLM的权重和KV缓存压缩到4位，而无需重新训练/校准，精度损失可忽略不计。这是通过细粒度分组量化实现的，可以显著降低I/O成本。

3、通过在英伟达T4GPU(16GB)上运行OPT-175B来展示FlexGen的效率。在单块GPU上，给定相同的延迟要求，与DeepSpeedZero-Inference(Aminabadietal.,2022)和HuggingFaceAccelerate(HuggingFace,2022)相比，不压缩的FlexGen可以实现高出65倍的吞吐量，后者是目前业内最先进的基于offloading的推理系统。如果允许更高的延迟和压缩，FlexGen可以进一步提高吞吐量并达到100倍的改进。FlexGen是第一个可以使用单块T4GPU为OPT-175B实现1token/s速度吞吐量的系统。如果给定多块分布式GPU，具有流水线并行性的FlexGen可在解码时实现超线性扩展。

在研究中，作者还将FlexGen和Petals作为offloading和去中心化集合推理方法的代表进行了比较。结果表明，具有单块T4GPU的FlexGen在吞吐量方面胜过具有12块T4GPU的分散式Petal集群，并且在某些情况下甚至可以实现更低的延迟。

运行机制

通过聚合来自GPU、CPU和磁盘的内存和计算，FlexGen可以在各种硬件资源限制下灵活配置。通过线性规划优化器，它搜索存储和访问张量的最佳模式，包括权重、激活和注意力键/值(KV)缓存。FlexGen将权重和KV缓存进一步压缩到4位，精度损失可以忽略不计。

FlexGen的一个关键思想是进行延迟-吞吐量权衡。实现低延迟对于卸载方法来说本来就具有挑战性，但对于面向吞吐量的场景，可以极大地提升卸载效率（见下图）。FlexGen利用块调度来重用权重并将I/O与计算重叠，如下图(b)所示，而其他基线系统使用低效的逐行调度，如下图(a)所示。

目前，该研究作者的下一步计划包括对苹果M1、M2芯片的支持和Colab部署的支持。

FlexGen自发布后在GitHub上的Star量很快上千，在社交网络上热度也很高。人们纷纷表示这个项目很有前途，似乎运行高性能大型语言模型的障碍正在被逐渐克服，希望在今年之内，单机就能搞定ChatGPT。

有人用这种方法训练了一个语言模型，结果如下：

虽然没有经过大量数据的投喂，AI不知道具体知识，但回答问题的逻辑似乎比较清晰，或许未来的游戏中，我们能看见这样的NPC？

THE END

跑ChatGPT体量模型，从此只需一块GPU：加速百倍的方法来了磁盘内存gpu

解密ChatGPT算力芯片技术

跑ChatGPT体量模型，从此只需一块GPU：加速百倍的方法来了磁盘内存gpu

算一笔细账，ChatGPT文心一言这类大模型到底要消耗多少GPU？澎湃号·湃客澎湃新闻

ChatGPT需要1万张NV顶级显卡国内仅有6家公司做到

ChatGPT两月排碳千吨？数据存储总提心吊胆？这场算力应用大赛或有解…

ChatGPT背后的算力博弈，中国企业亟待打破美国桎梏

ChatGPT火爆带动算力需求，我国算力规模能否支撑？

ChatGPT算力成本巨大，成为云厂商的一大门槛，大厂如何选择

深度拆解AI算力模型：ChatGPT的核心壁垒是什么？

大模型国产化适配4基于昇腾910使用LLaMA13B进行多机多卡训练随着ChatGPT的现象级走红，引领了AI

ChatGPT的运行模式关键技术及未来图景

ChatGPT的终极三问

透视“风口”，把脉ChatGPT

深度人工智能ChatGPT对金融科技行业的影响未央网

先锋观察ChatGPT引领视听传媒进入智能新时代

ChatGPT意味着第二次认知革命的到来