揭秘ChatGPT背后天价超算!上万颗英伟达A100,烧光微软数亿美元人工智能

大约五年前,OpenAI向微软提出了一个大胆的想法——建立一个可以永远改变人机交互方式的人工智能系统。

当时,没人能想到,这将意味着AI可以用纯语言创造出人类所描述的任何图片,人类可以用聊天机器人来写诗、写歌词、写论文、写邮件、写菜单……

为了建立这个系统,OpenAI需要很多算力——可以真正支撑起超大规模计算的那种。

但问题是,微软能做到吗?

毕竟,当时既没有能满足OpenAI需要的硬件,也无法确定在Azure云服务中构建这样庞大的超级计算机会不会直接把系统搞崩。

随后,微软便开启了一段艰难的摸索。

微软Azure高性能计算和人工智能产品负责人NidhiChappell(左)和微软战略合作伙伴关系高级总监PhilWaymouth(右)

为了构建支持OpenAI项目的超级计算机,它斥资数亿美元,在Azure云计算平台上将几万个NvidiaA100芯片连接在一起,并改造了服务器机架。

这么一个大工程,成本究竟是多少呢?微软负责云计算和人工智能的执行副总裁ScottGuthrie不愿透露具体数目,但他表示,「可能不止」几亿美元。

微软负责战略合作伙伴关系的高管PhilWaymouth指出,OpenAI训练模型所需要的云计算基础设施规模,是业内前所未有的。

呈指数级增长的网络GPU集群规模,超过了业内任何人试图构建的程度。

微软之所以下定决心与OpenAI合作,是因为坚信,这种前所未有的基础设施规模将改变历史,造出全新的AI,和全新的编程平台,为客户提供切实符合他们利益的产品和服务。

现在看来,这几亿美元显然没白花——宝押对了。

在这台超算上,OpenAI能够训练的模型越来越强大,并且解锁了AI工具令人惊叹的功能,几乎开启人类第四次工业革命的ChatGPT,由此诞生。

非常满意的微软,在1月初又向OpenAI狂砸100亿美元。

可以说,微软突破AI超算界限的雄心,已经得到了回报。而这背后体现的,是从实验室研究,到AI产业化的转变。

目前,微软的办公软件帝国已经初具规模。

ChatGPT版必应,可以帮我们搜索假期安排;VivaSales中的聊天机器人可以帮营销人员写邮件;GitHubCopilot可以帮开发者续写代码;AzureOpenAI服务可以让我们访问OpenAI的大语言模型,还能访问Azure的企业级功能。

其实,在去年11月,微软就曾官宣,要与Nvidia联手构建「世界上最强大的AI超级计算机之一」,来处理训练和扩展AI所需的巨大计算负载。

这台超级计算机基于微软的Azure云基础设施,使用了数以万计个NvidiaH100和A100TensorCoreGPU,及其Quantum-2InfiniBand网络平台。

随着AI研究人员开始使用更强大的GPU来处理更复杂的AI工作负载,他们看到了AI模型更大的潜力,这些模型可以很好地理解细微差别,从而能够同时处理许多不同的语言任务。

但是这些更大的模型很快就会到达现有计算资源的边界。而微软明白,OpenAI需要的超级计算机是什么样子,需要多大的规模。

这显然不是说,单纯地购买一大堆GPU并将它们连接在一起之后,就可以开始协同工作的东西。

Azure全球基础设施总监AlistairSpeirs表示,微软必须确保它能够冷却所有这些机器和芯片。比如,在较凉爽的气候下使用外部空气,在炎热的气候下使用高科技蒸发冷却器等。

此外,由于所有的机器都是同时启动的,所以微软还不得不考虑它们和电源的摆放位置。就像你在厨房里同时打开微波炉、烤面包机和吸尘器时可能会发生的情况,只不过是数据中心的版本。

完成这些突破,关键在哪里?

难题就是,如何构建、操作和维护数万个在高吞吐量、低延迟InfiniBand网络上互连的共置GPU。

这个规模,已经远远超出了GPU和网络设备供应商测试的范围,完全是一片未知的领域。没有任何人知道,在这种规模下,硬件会不会崩。

微软Azure高性能计算和人工智能产品负责人NidhiChappell解释道,在LLM的训练过程中,涉及到的大规模计算通常会被划分到一个集群中的数千个GPU上。

在被称为allreduce的阶段,GPU之间会互相交换它们所做工作的信息。此时就需要通过InfiniBand网络进行加速,从而让GPU在下一块计算开始之前完成。

NidhiChappell表示,由于这些工作跨越了数千个GPU,因此除了要确保基础设施的可靠外,还需要大量很多系统级优化才能实现最佳的性能,而这是经过许多代人的经验总结出来的。

所谓系统级优化,其中就包括能够有效利用GPU和网络设备的软件。

Waymouth指出,微软和合作伙伴也一直在逐步增加GPU集群的容量,发展InfiniBand网络,看看他们能在多大程度上推动保持GPU集群运行所需的数据中心基础设施,包括冷却系统、不间断电源系统和备用发电机。

微软AI平台公司副总裁EricBoyd表示,这种为大型语言模型训练和下一波AI创新而优化的超算能力,已经可以在Azure云服务中直接获得。

并且微软通过与OpenAI的合作,积累了大量经验,当其他合作方找来、想要同样的基础设施时,微软也可以提供。

现在,微软的Azure数据中心已经覆盖了全球60多个地区。

全新虚拟机:NDH100v5

在上面这个基础架构上,微软一直在继续改进。

今天,微软就官宣了全新的可大规模扩展虚拟机,这些虚拟机集成了最新的NVIDIAH100TensorCoreGPU和NVIDIAQuantum-2InfiniBand网络。

通过虚拟机,微软可以向客户提供基础设施,根据任何AI任务的规模进行扩展。据微软称,Azure的新NDH100v5虚拟机为开发者提供卓越的性能,同时调用数千个GPU。

THE END
1.ChatGPT的工作原理解析chatgpt模型公式ChatGPT的核心是Transformer架构,它是一种专门设计用于处理序列数据的深度神经网络结构。与传统的循环神经网络(RNN)相比,Transformer具有以下优势: 并行计算能力强:Transformer可以并行处理输入序列中的所有元素,大大提高了训练速度。 长距离依赖建模能力强:Transformer通过自注意力机制可以捕捉输入序列中任意两个元素之间的关系https://blog.csdn.net/m0_62554628/article/details/142835504
2.最近爆红的ChatGPT到底是个什么玩意儿?这些基本概念你要知道序列应ChatGPT 可用于各种有趣和有创意的应用程序。以下是您可以使用 ChatGPT 执行的一些示例。 生成文本和响应 ChatGPT 最流行的用途之一是根据提示生成文本。通过提供提示,您可以要求 ChatGPT 生成文本作为响应。例如,您可以要求 ChatGPT 根据提示生成一个故事,或者您可以要求它完成一个句子或段落。 https://3g.163.com/dy/article/HT25VD1805561IOL.html
3.怎么让ChatGPT优化代码?Worktile社区怎么让ChatGPT优化代码 要让ChatGPT优化代码,可以尝试以下方法: 1. 代码优化技巧 首先,可以采用一些常见的代码优化技巧,例如使用合适的数据结构、减少循环次数、减少重复计算等等。这些技巧可以提高代码的执行效率,从而加快程序运行速度。 2. 算法优化 另外,也可以从算法的角度进行优化。尽量选择高效的算法,避免使用时间https://worktile.com/kb/ask/539173.html
4.OpenAI是如何胜过谷歌的?ChatGPT发展简史ChatGPT由GPT-3.5模型提供支持,GPT(Generative Pre-trained Transformer,生成式预训练变换器)是一种基于互联网可用数据训练的文本生成深度学习模型。名字中之所以有一个Transformer,是因为GPT就是OpenAI在谷歌的Transformer语言模型框架的基础上构建的。 该模型使用了"利用人类反馈强化学习(RLHF)"的训练方式,包括了:人类提https://aidc.shisu.edu.cn/7f/a0/c13626a163744/page.htm
5.ChatGPT使用量的计算ChatGPT聊天将消耗token(这里称之为积分),积分的计算比较复杂,发送的文本要计算积分,回来的文本也要计算积分。 如果是上下文聊天,每次发送文本都要包括之前的聊天记录,因此,积分消耗更多。 那么,具体一段文本怎么计算token数量呢?计算比较复杂,粗略来说,一个简单的英文单词就是一个token,复杂的英文单词可能是2~4个tohttps://www.douban.com/group/topic/288590324
6.ChatGPT模型大战:讯飞星火认知大模型百度文心一言能否击败GPT数值计算 推理解题 跨语言能力 文生图 总结 个人感受 一、你有使用过这种对话式AI吗?你对这类型AI有什么看法或感受? 二、对于“讯飞星火大模型将超越chatgpt?”这个命题你的态度是什么?简要说说原因 三、你认为这类型的人工智能对于现在的社会有哪些意义? https://blog.51cto.com/u_14943402/10335157
7.GPT图解大模型是怎样构建的■初代GPT:基于 Transformer 的单向预训练语言模型,采用生成式方法进行预训练。 ■ChatGPT:从GPT-3开始,通过任务设计和微调策略的优化,尤其是基于人类反馈的强化学习,实现强大的文本生成和对话能力。 ■GPT-4:仍基于Transformer架构,使用前所未有的大规模计算参数和数据进行训练,展现出比以前的AI模型更普遍的智能,不仅https://labs.epubit.com/bookDetails?id=UB836238e7a9d3d
8.云计算:ChatGPT的“中枢神经”开发侧,ChatGPT 生长在云上, 依赖于云计算服务,多年来OpenAI共收到了上百亿的投资,这些资金帮助 OpenAI 在平台上运行和训练其模型;产品侧,OpenAI 基于Cloud Native进行应用开发,基于云计算提供的便捷高性能计算运算模型和打磨算法,并对外销售产品和 API;而投资方基于 AI Native 来提升搜索、绘画等产品,未来会在Offhttps://m.thepaper.cn/newsDetail_forward_22342649
9.“整篇论文没有我自己写的东西”:论文是AI写的,算学术不端吗赵铭在ChatGPT的帮忙下完成了硕士毕业论文,他在国内一所985大学的理工科专业就读,毕业论文的内容是关于云计算。他总结了几种使用ChatGPT的方法,比如凑字数。 ChatGPT很适合“凑字数”,只要发出指令,一句观点便能扩充至几百字。但字数一多,它也会暴露出不足,很多受访者都反映它会重复说“车轱辘话”,“它废话是https://static.nfapp.southcn.com/content/202305/31/c7740338.html
10.解惑了——ChatGPT基于知识库提问token计算方法最近一直做知识库的训练,基于公司的场景一直做课程助手、课程推荐专家的训练。 慢慢了基于知识库回答的一些原理,也慢慢给自己解惑了。 首先,token的计算 众所周知,ChatGhttps://www.jianshu.com/p/519c4c606743
11.为何ChatGPT有时“一本正经地胡说八道”李祖超:对于ChatGPT是否能成为操作系统的新雏形这个问题,我的答案是积极的。操作系统的作用根据用户指令实现资源的分配以及计算的调度,那么ChatGPT发挥的作用是充当新的人机接口,更智能地实现用户指令的解译,减少用户的操作。从更长远来看,通过赋予ChatGPT管理系统资源如硬盘、CPU、外设等能力,将ChatGPT直接作为一种操作系https://m.gmw.cn/2023-02/23/content_1303292513.htm
12.ChatGPT标注指南来了!数据是关键ChatGPT 这个超大的模型可能暂时不需要,但我们在实际工作中很多模型(尤其是推荐)是小时或分钟级别更新的。对这种情况,应该在一开始设计的时候将这部分流程考虑进去。这部分更多是设计和工程问题,比如数据怎么更新,存储在哪里,如何获取,是否需要转换,是否需要定时清理,伸缩性,可用性等多个方面。http://www.360doc.com/content/23/0309/17/1071268750_1071268750.shtml
13.2023年爆火的软件“ChatGPT”到底是个什么呢?ChatGPT的详解以及2023年2月2日,微软官方公告表示,旗下所有产品将全线整合ChatGPT,除此前宣布的搜索引擎必应、Office外,微软还将在云计算平台Azure中整合ChatGPT,Azure的OpenAI服务将允许开发者访问AI模型。 2023年2月3日消息,IT 行业的领导者们担心,大名鼎鼎的人工智能聊天机器人 ChatGPT,已经被黑客们用于策划网络攻击时使用。 http://www.quwaifu.com/News/View/22739