跑ChatGPT体量模型,从此只需一块GPU:加速百倍的方法来了磁盘内存gpu

1750亿参数,只需要一块RTX3090,ChatGPT终于不再是大厂专属的游戏?

计算成本是人们打造ChatGPT等大模型面临的重大挑战之一。

据统计,从GPT进化到GPT-3的过程也是模型体量增长的过程——参数量从1.17亿增加到了1750亿,预训练数据量从5GB增加到45TB,其中GPT-3训练一次的费用是460万美元,总训练成本达1200万美元。

除了训练,推理也很花钱。有人估算,现在OpenAI运行ChatGPT的算力费用每天就有10万美元。

虽然FlexGen加速后的大模型看起来仍然很慢——跑1750亿参数的语言模型时每秒1个token,但令人印象深刻的是,它已经把不可能变成了可能。

传统上,大语言模型(LLM)推理的高计算和内存要求使人们必须使用多个高端AI加速器进行训练。本研究探索了如何将LLM推理的要求降低到一个消费级GPU并实现实用性能。

近日,来自斯坦福大学、UCBerkeley、苏黎世联邦理工学院、Yandex、莫斯科国立高等经济学院、Meta、卡耐基梅隆大学等机构的新研究提出了FlexGen,这是一种用于运行有限GPU内存的LLM的高吞吐量生成引擎。

通过聚合来自GPU、CPU和磁盘的内存和计算,FlexGen可以在各种硬件资源限制下灵活配置。通过线性规划优化器,它搜索存储和访问张量的最佳模式,包括权重、激活和注意力键/值(KV)缓存。FlexGen将权重和KV缓存进一步压缩到4位,精度损失低到可以忽略不计。与最先进的offloading系统相比,FlexGen在单个16GBGPU上运行OPT-175B的速度提高了100倍,并首次实现了1token/s的实际生成吞吐量。如果提供了更多的分布式GPU,FlexGen还带有流水线并行runtime,以允许在解码时进行超线性扩展。

简介

近年来,大语言模型在广泛的任务中表现出卓越的性能。LLM在展现出前所未有的通用智能的同时,也让人们在构建时面临着前所未有的挑战。这些模型可能有数十亿甚至数万亿个参数,这导致运行它们需要极高的计算和内存要求。例如,GPT-175B(GPT-3)仅用于存储模型权重就需要325GB的内存。要让此模型进行推理,至少需要五块英伟达A100(80GB)和复杂的并行策略。

降低LLM推理资源需求的方法是最近人们经常讨论的内容。这些努力分为三个方向:

(1)模型压缩以减少总内存占用量;

(2)协同推理,通过去中心化分摊成本;

(3)Offloading以利用CPU和磁盘的内存。

这些技术显着降低了使用LLM的计算资源需求。然而,人们通常假设模型适合GPU内存,而现有的基于offloading的系统仍然难以使用单块GPU以可接受的吞吐量运行1750亿参数规模的模型。

在新研究中,作者专注于高吞吐量生成推理的有效offloading策略。当GPU显存不够用时,我们需要将其卸载到二级存储,通过部分加载的方式,逐段进行计算。在典型的机器上,内存层次结构分为三级,如下图所示。高级内存速度快但稀缺,低级内存速度慢但充裕。

在FlexGen中,作者不追求低延迟,而是瞄准面向吞吐量的场景,这些场景在基准测试、信息提取、数据整理等应用中很受欢迎。实现低延迟对于offloading来说本质上是一个挑战,但是对于面向吞吐量的场景,可以大大提高offloading的效率。图1说明了三个具有offloading的推理系统的延迟吞吐量权衡。通过仔细的调度,I/O成本可以通过大量输入分摊并与计算重叠。在研究中,作者展示了就单位算力成本而言,单块消费级GPU吞吐量优化的T4GPU效率要比云上延迟优化的8块A100GPU的效率高4倍。

图1.OPT-175B(左)和OPT-30B(右)上三个基于offloading的系统的延迟和吞吐量权衡。FlexGen实现了新的帕累托最优边界,OPT-175B的最大吞吐量提高了100倍。由于内存不足,其他系统无法进一步提高吞吐量。

尽管已有研究在训练的背景下讨论了offloading的延迟-吞吐量权衡,但尚未有人将其用于生成LLM推理,这是一个截然不同的过程。由于LLM的自回归性质,生成推理提出了独特的挑战。除了存储所有参数外,它还需要顺序解码并维护一个大的注意力键/值缓存(KV缓存)。现有的offload系统都无法应对这些挑战,因此它们执行过多的I/O,只能实现远低于硬件能力的吞吐量。

为此,在新方法FlexGen上,人们提出了一种用于LLM推理的offloading框架。FlexGen聚合来自GPU、CPU和磁盘的内存,并能有效地调度I/O操作,作者也讨论了可能的压缩方法和分布式管道并行性。

该研究的主要贡献如下:

2、研究表明,可以将OPT-175B等LLM的权重和KV缓存压缩到4位,而无需重新训练/校准,精度损失可忽略不计。这是通过细粒度分组量化实现的,可以显著降低I/O成本。

3、通过在英伟达T4GPU(16GB)上运行OPT-175B来展示FlexGen的效率。在单块GPU上,给定相同的延迟要求,与DeepSpeedZero-Inference(Aminabadietal.,2022)和HuggingFaceAccelerate(HuggingFace,2022)相比,不压缩的FlexGen可以实现高出65倍的吞吐量,后者是目前业内最先进的基于offloading的推理系统。如果允许更高的延迟和压缩,FlexGen可以进一步提高吞吐量并达到100倍的改进。FlexGen是第一个可以使用单块T4GPU为OPT-175B实现1token/s速度吞吐量的系统。如果给定多块分布式GPU,具有流水线并行性的FlexGen可在解码时实现超线性扩展。

在研究中,作者还将FlexGen和Petals作为offloading和去中心化集合推理方法的代表进行了比较。结果表明,具有单块T4GPU的FlexGen在吞吐量方面胜过具有12块T4GPU的分散式Petal集群,并且在某些情况下甚至可以实现更低的延迟。

运行机制

通过聚合来自GPU、CPU和磁盘的内存和计算,FlexGen可以在各种硬件资源限制下灵活配置。通过线性规划优化器,它搜索存储和访问张量的最佳模式,包括权重、激活和注意力键/值(KV)缓存。FlexGen将权重和KV缓存进一步压缩到4位,精度损失可以忽略不计。

FlexGen的一个关键思想是进行延迟-吞吐量权衡。实现低延迟对于卸载方法来说本来就具有挑战性,但对于面向吞吐量的场景,可以极大地提升卸载效率(见下图)。FlexGen利用块调度来重用权重并将I/O与计算重叠,如下图(b)所示,而其他基线系统使用低效的逐行调度,如下图(a)所示。

目前,该研究作者的下一步计划包括对苹果M1、M2芯片的支持和Colab部署的支持。

FlexGen自发布后在GitHub上的Star量很快上千,在社交网络上热度也很高。人们纷纷表示这个项目很有前途,似乎运行高性能大型语言模型的障碍正在被逐渐克服,希望在今年之内,单机就能搞定ChatGPT。

有人用这种方法训练了一个语言模型,结果如下:

虽然没有经过大量数据的投喂,AI不知道具体知识,但回答问题的逻辑似乎比较清晰,或许未来的游戏中,我们能看见这样的NPC?

THE END
1.CHATGPT对算力的需求如何颠覆芯片的底层架构设计,存算一体,正是突破算力瓶颈、摆脱存储宽带限制的一条路径。关键词之一,是顺势。 大部分读者都知道,算法、算力和数据是大模型时代的三大基础要素,ChatGPT引爆了算力要求的“核聚变”。当摩尔定律已经被逼近物理极限,如何突破算力瓶颈已成为业界重点突围的方向之一,因为模型计算量的增长速度,已经远http://www.hlwwhy.com/ask/6690483.html
2.ChatGPT价格里掩盖的算力分布秘密新程序员【导读】当前,大语言模型的商业化持续进行,本文聚焦这一变革背景下的 ChatGPT 定价机制,深入剖析其核心技术内涵。通过细致研究 ChatGPT-3.5 turbo 采用的 Decode-Only 架构,作者系统地探讨了模型在接收到输入提示并生成相应输出的过程中,如何差异化利用 GPU 算力资源,进而阐明了支撑该定价策略的独特技术原理。 https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/136265725
3.投资者提问:CHATGPT时代来临,对算力要求将巨幅提高,请问公司在CHATGPT时代来临,对算力要求将巨幅提高,请问公司在提高算力上有什么技术吗? 董秘回答(网宿科技SZ300017): 投资者,你好。公司自成立来坚持深耕数字经济基础设施层与平台层,包括数据中心,混合云和云管平台,CDN,云安全及边缘计算平台等。通过提供计算、存储、网络及安全等新一代信息技术服务,助力互联网客户、政府及企业https://finance.sina.cn/stock/relnews/dongmiqa/2023-03-09/detail-imykhfhw9958631.d.html
4.ChatGPT服务器,深度拆解AI大模型训练需求火热,智能算力规模增长有望带动AI服务器放量。 ChatGPT发布之后,引发了全球范围的关注和讨论,国内各大厂商相继宣布GPT模型开发计划。据各公司官网,2023年2月7日,百度宣布将推出ChatGPT类似产品“文心一言”,预计今年3月展开内测;2月8日阿里宣布阿里版ChatGPT正在研发中,目前处于内测阶段;2月9日,字节https://www.51cto.com/article/747956.html
5.ChatGPT正在榨干算力,如何打赢这场算力攻坚战?互联网在这之中表现最为亮眼的,莫过于从GPT-3迭代而来的ChatGPT,2022年底一出世就博得全球目光,无论是在模型预训练阶段,还是模型被访问阶段,ChatGPT都对算力提出“史无前例”的要求。 在模型预训练阶段,从GPT-1到GPT-3,从GPT-3 Small到GPT-3 175B,对算力的需求呈指数型增长。 https://news.iresearch.cn/yx/2023/03/463121.shtml
6.关于ChatGPT的五个最重要问题iPhone的交互方式和各种传感器,让iPhone慢慢变成了人类的身体的一部分,一个带来更多信息,高效交互的器官。ChatGPT已经接近目前人类调用算力和数据的最终极形态了,其应用方式本身当然是足够厉害的。我们在第二问,ChatGPT会取代哪些工作里,详细展开。 这里也牵涉到了一个重要的题外话,我们在讨论中发现,很多资深AI从业者,http://www.360doc.com/content/23/0317/18/1072439854_1072439854.shtml
7.令小雄王鼎民袁健:ChatGPT爆火后关于科技伦理及学术伦理的冷ChatGPT 能讲“人话”是基于 OpenAI 公司开发的一个 GPT-3.5 架构的大型语言模型,通过强化学习训练人工智能聊天机器人程序,能够广泛应用于业界和客户服务,基于 Transformer 架构的强大算力的语言模型,具有深度学习特质,葆有出色的语言理解和文本对话生成能力,ChatGPT 的语言理解和生成水平的便捷性能够更快更好地回答http://fzzfyjy.cupl.edu.cn/info/1035/15631.htm
8.中金:ChatGPT启新章,AIGC引领云硬件新时代一般服务器/存储器对于PCB的需求普通的多层板为主,随着ChatGPT大模型这类需要海量数据应用的发展,对算力的要求越来越高,对于大容量、高速、高性能的云计算服务器的需求将不断增长,对PCB的设计要求也将不断升级,提升对于高层数、大尺寸、高速材料等的应用。https://wallstreetcn.com/articles/3682574
9.一文读懂ChatGPT,你想知道的都在这里目前,百度宣布进军AIGC赛道,依托数据、算法和算力,全力打造AIGC产品“文心一言”,有利于为我国舆论安全保驾护航。 ? 完善监管机制,加强AI层面立法 首先,事前建立市场准入标准,由网信办牵头,成立人工智能风险评估委员会,综合评估ChatGPT进入市场后可能引发的风险,要求人工智能公司严格遵守各项运营要求。其次,事中应当https://weibo.com/ttarticle/p/show?id=2309404906876851847170
10.实测:ChatGPT的翻译能力怎么样?雷峰网另外,研究人员在Tp2中增加了一个额外命令,要求ChatGPT不要在翻译的句子上加双引号(在原始格式中经常发生)。尽管如此,ChatGPT依旧不稳定,如会将同一批次的多行句子翻译成单行。 图2:候选翻译提示 研究人员将三种不同的候选prompt与Flores-101的测试集在汉译英任务中的表现进行比较,图3显示了ChatGPT和其他三个翻译https://m.leiphone.com/category/ai/GftWDAq4bFtBelft.html
11.ChatGPT第二、遏制用户滥用政策。不允许文本要求生成暴力、成人或政治内容等视频。如果我们的过滤器发现可能违反我们政策的文本提示和图片上传,ChatGPT就会采用自动化和人工监控系统予以拒绝。 OpenAI认为:负责任的开发和安全监管是人工智能的重要组成部分,让用户对ChatGPT安全系统有信心。 https://www.jianshu.com/p/805abc3dcaae