2017年,一篇具有里程碑意义的论文——《AttentionisAllYouNeed》横空出世,它首次引入了基于自注意力机制的Transformer模型,这一创新架构摆脱了传统的RNN和CNN的束缚,通过并行处理的注意力机制,有效克服了长距离依赖的难题,并显著提升了序列数据处理的速度。Transformer的编码器-解码器结构和多头注意力机制在人工智能领域掀起了一场风暴,大热的ChatGPT正是基于这一架构构建的。
他们在对话中也表达了一些令人印象深刻的观点:
●这个世界需要比Transformer更好的东西,我想我们在座的所有人都希望它能被某种东西所取代,将我们带到一个新的性能高原。
●我们在最初的目标上并没有成功,我们开始Transformer的初衷是想要模拟Token的演化过程。它不仅仅是线性的生成过程,而是文本或代码的逐步演化。
●像2+2这样的简单问题,它可能会使用大模型的万亿参数资源。我认为自适应计算是接下来必须出现的事情之一,我们知道在特定问题上应该花费多少计算资源。
●我认为当前的模型太过经济实惠,规模也还太小,大概1美元百万toke的价格,比外出购买一本平装书要便宜100倍。
内容实录:
我们开始探索加速计算,但使用加速计算并不容易,你需要从头一点一点来设计。过去,我们可能按照既定的步骤一步步解决问题,但现在,我们需要重新设计这些步骤,这是一个全新的科学领域,将之前的规则重新表述为并行算法。
回顾公司的历史,我们发现我们有能力加速各种应用。起初,我们在游戏领域取得了显著的加速效果,效果好到让人误以为我们是一家游戏公司。但实际上,我们的目标远不止于此,因为这个市场庞大,大到能够推动难以置信的技术进步。这种情况并不常见,但我们找到了这样一个特例。
简而言之,这些成就为生成式人工智能的发展奠定了基础。生成式AI不仅能够识别图片,还能将文字转化为图片,甚至创造出全新的内容。现在,我们有了足够的技术能力去理解像素,识别它们,并理解它们背后的意义。通过这些背后的意义,我们可以创造出新的内容。人工智能通过数据理解其背后含义的能力,这是一个巨大的变革。
生成式AI,是一种全新的“软件”,它又能够创造软件,它依赖于众多科学家的共同努力。想象一下,你给AI原材料——数据,它们进入一栋“建筑”——我们称之为GPU的机器,它就能输出神奇的结果。它正在重塑一切,我们正在见证“AI工厂”的诞生。
今天我们邀请了Tansformer的创造者们,来一起讨论未来生成式AI会将我们带向何方。
他们是:
黄仁勋:今天坐到这里,请大家积极争抢发言的机会,在这里没有什么话题是不可以谈的,你们甚至可以从椅子上跳起来去讨论问题。让我们从最基础的问题谈起,你们当时遇到了什么问题,是什么启发你们去做Transformer?
IlliaPolosukhin:如果你想要发布能够真正读取搜索结果的模型,比如处理成堆的文档,你需要一些能够迅速处理这些信息的模型。当时的递归神经网络(RNN)并不能满足这样的需求。
那时候的强大RNN,特别是长短期记忆网络(LSTM),已经存在。
NoamShazeer:看起来这是一个亟待解决的问题。我们在2015年左右就已经开始注意到这些Scalinglaw,你可以看到随着模型规模的增大,它的智能程度也随之提高。这里就像是世界历史上最好的问题,非常简单:你只是在预测下一个token,它就会变得如此聪明,能够做一百万个不同的事情,你只是想扩大规模并让它变得更好。
而一个巨大的挫败感在于,RNN处理起来实在是太麻烦了。然后我偶然听到这些家伙在讨论,嘿,让我们用卷积或者注意力机制来取代它。我心想,太好了,我们就这么干。我喜欢把Tansformer比作是从蒸汽机到内燃机的飞跃。我们本可以用蒸汽机完成工业革命,但那将会非常痛苦,而内燃机让一切都变得更好。
AshishVaswani:我在研究生时期就开始体会到一些苦涩的教训,尤其是在我从事机器翻译工作的时候。我意识到,嘿,我不会去学习那些复杂的语言规则。我认为梯度下降(GradientDescent)——我们训练这些模型的方法——是一个比我更出色的老师。所以我不会去学习这些规则,我只会让梯度下降(GradientDescent)为我完成所有工作,这就是我的第二个教训。
黄仁勋:所以你们要解决什么问题?
LukaszKaiser:机器翻译。回想五年前,这个过程似乎非常艰难,你得搜集数据,可能进行翻译,但结果可能只是勉强正确。那时的水平还很基础。但现在,这些模型即使没有数据也能学会翻译。你只需提供一种语言和另一种语言,模型就能自行学会翻译,这种能力就像自然而然地涌现出来的,而且效果令人满意。
LlionJones:但是,“Attention”的直觉就是你所需要的。所以我想出了这个标题,基本上发生的事情就是在我们寻找标题的时候。
AshishVaswani:基本上有趣的是,我们实际上是从一个最基本的框架开始的,然后我们添加了东西,我们添加了卷积,我猜后来我们又把它们去掉了。还有多头注意力等其他很多非常重要的东西。
黄仁勋:谁想出了Transformer的名字?为什么叫Transformer?
JakobUszkoreit:我们喜欢这个名字,我们只是随便起了一个名字,觉得它很有创意,改变了我们的数据生产模式,使用了这样一种逻辑。所有的机器学习都是Transformer,都是颠覆者。
NoamShazeer:我们之前没有想过这个名字,我觉得这个名字特别简单,很多人都觉得这个名字特别好。我之前想过很多的名字,比如Yaakov,最终确定了“Transformer”,它描述了模型的原理,它实际上转换了整个信号,按照这个逻辑,几乎所有的机器学习都会被转换。
LlionJones:Transformer之所以成为这样一个人们耳熟能详的名字,不仅仅是因为翻译的内容,而且是因为我们希望以一种更概括的方式来描述这种变革。我不觉得我们做得多么出色,但是作为一个变革者,作为驱动和引擎,它是有逻辑的。大家能够了解到这样一种大语言模型、引擎和逻辑,从架构上而言,这都是一个比较早的着手时期。
但是我们确实意识到,我们实际上是在尝试创造一些非常非常通用的东西,它真的可以将任何东西变成其他任何东西。而且我不认为我们预测到当Transformer被用于图像时,这实际上会有多好,这有点令人惊讶。这对你们来说可能是合乎逻辑的,但事实上,你可以将图像分块并标记每个小点,对吧。我认为这在建筑上很早就存在了。
所以卢卡什(Lukasz)说他正在做的是翻译。我想他是低估了自己,所有这些想法,我们现在开始看到这些模式结合在一起,它们都加入了模型。
这个想法确实推动了扩展工作,最终成功了,它是如此有趣,以至于我们可以将图像翻译成文本,将文本翻译成图像,翻译文本到文本。
一个生物软件的生命始于某些行为的规范。比如说,你想打印一个蛋白质,就像细胞中的特定蛋白质一样。然后你学会了如何使用深度学习将其转化为RNA分子,但实际上一旦进入你的细胞,表现出这些行为。所以这个想法真的不仅仅是翻译成英语。
黄仁勋:你们是否创建了一个大型的实验室来生产所有这些?
AidanGomez:大量可用,实际上仍然公开,因为这些数据通常仍然主要由公共资助。但实际上,你仍然需要数据来清楚地说明你正在尝试的现象。
现在,我们认为自己是新事物的先驱,致力于实际创建这些数据并验证设计这些分子的模型。但最初的想法就是翻译。
黄仁勋:最初的想法是机器翻译,我想问的是,在架构的强化和突破中,看到的关键节点是什么?以及它们对Transformer的设计有什么影响?
AidanGomez:一路走来,你们都看到了,你认为在基础Transformer设计之上真的有很大的额外贡献吗?我认为在推理方面,已经有大量的工作来加速这些模型,使它们更有效率。
我仍然认为这有点让我感到不安,因为我们的原始形式是多么相似。我认为这个世界需要比Transformer更好的东西,我想我们在座的所有人都希望它能被某种东西所取代,将我们带到一个新的性能高原。
我想问在座的每个人一个问题。你认为接下来会发生什么?就像这是令人兴奋的一步,因为我认为它与6-7年前的东西太相似了,对吧?
LlionJones:是的,我想人们会惊讶于你说的相似程度,对吧?人们确实喜欢问我接下来会发生什么,因为我是这篇论文的作者。就像魔法一样,你挥动魔法棒,下一步会出现什么?我想指出的是,这个具体的原理是如何被设计的。我们不仅需要变得更好,我们需要变得明显地更好。
因为如果它只是稍微好一点,那么这还不足以将整个人工智能行业推向新事物。因此,我们被困在原始模型上,尽管从技术上讲,它可能不是我们现在拥有的最强大的东西。
但是每个人都知道自己想要什么样的个人工具,你们想做更好的上下文窗口,你们想要更快地产生token的生成能力。好吧,我不确定你是否喜欢这个答案,但他们现在使用了太多的计算资源。我认为大家做了很多浪费的计算。我们正在努力提高效率,谢谢
黄仁勋:我觉得我们是让这一切更加有效,感谢!
JakobUszkoreit:但我觉得这主要是关于如何分配资源,而不是一共消耗了多少资源。比如我们不希望在一个容易得问题上花太多钱,或者在一个太难的问题上花太少而最终得不到解决方案。
IlliyaPolosukhin:这个例子就像2+2,如果你正确地将他输入到这个模型中,它就会使用一万亿个参数。所以我认为自适应计算是接下来必须出现的事情之一,我们知道在特定问题上应该花费多少计算资源。
LukaszKaiser:这种概念在Transformer之前就存在了,它被整合进了Transformer模型中。实际上,我不确定在座的各位是否清楚,我们在最初的目标上并没有成功,我们开始这个项目的初衷是想要模拟Token的演化过程。它不仅仅是线性的生成过程,而是文本或代码的逐步演化。我们进行迭代,我们进行编辑,这使我们有可能不仅模仿人类如何发展文本,还能将他们作为这一过程的一部分。因为如果你能像人类那样自然地生成内容,他们实际上就能够提供反馈,不是吗?
我们所有人都研读过香农的论文,我们最初的想法是,只专注于语言建模和困惑度,但事实上这并没有实现。我认为这也是我们能够进一步发展的地方。这也与我们现在如何智能地组织计算资源有关,这种组织方式现在也适用于图像处理。我的意思是,扩散模型具有一种有趣的特性,它们能够通过迭代不断地精炼和提升质量。而我们目前还没有这样的能力。
我的意思是,这个根本性问题:哪些知识应该内置于模型之中,哪些知识应该置于模型之外?是使用检索模型吗?RAG(Retrieval-AugmentedGeneration)模型就是一个例子。同样地,这也涉及到推理问题,即哪些推理任务应该通过外部的符号系统来完成,哪些推理任务应该直接在模型内部执行。这在很大程度上是一个关于效率的讨论。我确实相信,大型模型最终会学会如何进行2+2这样的计算,但如果你要计算2+2,却通过累加数字来进行,那显然是低效的。
黄仁勋:如果AI只需要计算2+2,那么它应该直接使用计算器,用最少的能量来完成这个任务,因为我们知道计算器是做2+2计算的最有效工具。然而,如果有人问AI,你是如何得出2+2的决定的?你知道2+2是正确的答案吗?这将耗费大量的资源?
NoamShazeer:确实如此。你之前提到过一个例子,但我同样确信在座的各位所研发的人工智能系统都足够智能,能够主动使用计算器。
目前全球公共产品(GPP)正是这样做的。我认为当前的模型太过经济实惠,规模也还太小。它之所以便宜,是因为像NV这样的技术,感谢它的产出。
每次操作的计算成本大约是10到-18美元。或者说,大致在这个数量级。感谢您创造了如此多的计算资源。但是,如果你观察一个拥有五千亿参数的模型,并且每个token进行一万亿次计算,大概是一美元百万token,这比外出购买一本平装书并阅读的成本要便宜100倍。我们的应用程序在价值上比巨型神经网络上的高效计算高出百万倍或更多。我的意思是,它们无疑比治愈癌症等事情更有价值,但不仅如此。
AshishVaswani:我觉得让世界更聪明,就是指如何去获得来自于世界的反馈,我们能否实现多任务、多线的并行。如果你真的想构建这样一个模型,帮助我们设计这样一个模型,这是一种非常好的方式。
AshishVaswani:在我们公司,我们的目标是构建模型并解决新的任务。我们的工作是理解任务的目标和内容,并随着这些内容的变化来满足客户的需求。实际上,从2021年开始,我发现模型最大的问题在于,你不能仅仅让模型变得更聪明,你还需要找到合适的人才来解读这些模型。我们希望让这个世界与模型相互交融,使模型变得更加庞大和卓越。学习过程中需要取得一定的进展,最初在实验室的真空环境下是无法完成这些工作的。
JakobUszkoreit:感谢。我想谈谈我们创立的生态软件体系。在2021年,我参与创立了这家公司,我们的目标是解决一些真正具有科学影响力的问题。过去,我们处理的内容相当复杂。但当我迎来第一个孩子时,我看待世界的方式发生了改变。我们希望让人类的生活变得更加便利,也希望对蛋白质的研究做出贡献。尤其是有了孩子之后,我更希望能够改变现有的医疗架构,并且希望科学技术的发展能够对人类的生存和发展产生积极影响。例如,蛋白质的结构和解构已经受到了一定的影响,但目前我们缺乏数据。我们必须基于数据做出努力,这不仅是职责,也是作为父亲的责任。
黄仁勋:我特别欣赏的是,当NoamShazeer显得特别平静时,你却显得非常兴奋。你们俩的个性差异真是鲜明。现在,请LukaszKaiser发言。
LukaszKaiser:我在OpenAI的经历非常颠覆性。公司里充满了乐趣,我们处理着大量数据进行计算,但归根结底,我的角色还是一个数据处理者。
IlliyaPolosukhin:我是第一个离开的人。我坚信我们将取得重大进展,软件将改变整个世界。最直接的方式就是教会机器编写代码,让编程对每个人都变得可及。
我们现在正处于一个全新的生成式时代,这是一个崇尚创新和创新者的时代,我们希望积极参与并拥抱变化,因此我们寻求不同的方法来帮助构建一个非常酷的模型。
IlliaPolosukhin:我们的起点是矢量和位移。我们需要真正具有经济价值的模型,人们能够对其进行评估,最终将你的技术和工具应用到实践中,从而使整个模型变得更好。
黄仁勋:你如何对模型进行领域训练?最初的互动和交互模式是什么?是模型之间的交流和交互吗?还是有生成式的模型和技术?
IlliaPolosukhin:在我们团队中,每个人都有自己的技术专长。
JakobUszkoreit:下一步是推理。我们都认识到了推理的重要性,但很多工作目前还是由工程师手工完成的。我们实际上是在教他们以一种交互式的问答方式去回答,我们希望他们能够理解为什么在一起,一起提供强有力的推理模式。我们希望模型能够生成我们想要的内容,这样的生成方式是我们所追求的。无论是视频、文本还是3D信息,它们都应该被整合在一起。
很多时候,这些都是源自数据的。我认为推理的发展非常迅速,数据模型也非常重要,而且不久的将来会有更多交互性的内容。我们还没有进行充分的培训,这不是关键内容和要素,我们需要让数据更加充实。
NoamShazeer:设计一些数据,比如设计教学机器,可能涉及数百个、数亿个不同的代币。
黄仁勋:如果没有良好的衡量体系,你就无法完成出色的工程。你们彼此之间有没有想问的问题?
IlliaPolosukhin:没有人真正想要了解自己到底走了哪些步骤。但实际上,我们希望能够了解、探索我们到底在做什么,获取足够的数据和信息,进行合理的推理。比如,如果你有六步,但实际上你可以通过五步进行推理来跳过一步。有时候你不需要六步,有时候你需要更多步骤,那么你要如何复现这样的场景?你从Token进一步发展需要什么呢?
LukaszKaiser:我个人的信仰是,如何复现这样的大模型,这是一个非常复杂的过程。系统会不断进步,但从本质上讲,你需要设计一种方法。人类是善于复现的生物,在人类历史中,我们不断复现成功的场景。
黄仁勋:很高兴能与各位交流,也希望你们有机会相互交流,产生难以言喻的魔法。感谢各位参与这次会议,非常感谢!(转载自:腾讯科技)