在ChatGPT的热潮之下,这一周,谷歌和微软在人工智能领域的动作和竞争愈演愈烈。
有意思的是,ChatGPT开发商OpenAI成立的一个原因就是避免谷歌在人工智能领域的垄断。成立之初,它作为一个非营利组织运营,明确提出以将先进人工智能的效益民主化为使命。它承诺发布其研究成果,并开源其所有技术,其对透明度的承诺体现在其名称中——OpenAI。
没有好问题,就没有好答案:
让计算机像人一样说人话,是在计算机发明之前的梦想。
虽然早在1966年,MIT的教授约瑟夫·维森班(JosephWeizenbaum)就开发了第一个聊天程序ELIZA,50多年后,还陆续出现了更先进的微软小冰、Siri等聊天程序。但直到现在,计算机还没能像真人一样聊天。
1950年,计算机科学之父艾伦·图灵(AlanTuring)发表了具有里程碑意义的论文《电脑能思考吗?》,第一次提出“机器思维”的概念。也就是所谓的图灵测试。他说,如果一台机器能够与人类展开对话,而不被辨别出其机器身份,那么可以说这台机器具有智能。
从那时开始,72年来,人类一直在试图解决这个问题。
有人说,这个程序通过了图灵测试,成为有史以来第一个具有人类思考能力的人工智能。
大家的共识是,到目前为止,还没有任何人工智能通过了图灵测试,而最接近通过图灵测试的就是ChatGPT。
1
2022年11月30日,OpenAI的CEO,Altman在推特上写道:“今天我们推出了ChatGPT,尝试在这里与它交谈”,然后是一个链接,任何人都可以注册一个帐户,开始免费与OpenAI的新聊天机器人ChatGPT交谈。
ChatGPT能够回答连续的问题、生成文本摘要、翻译文档、对信息分类、写代码等,它也会承认错误、质疑不正确的前提并拒绝不恰当的请求。
ChatGPT看起来什么都懂,就像个百科全书。由于其流畅的回答,丰富的知识,给参与者极大的震撼。但它并不完美,也会产生让人啼笑皆非的错误,带来莫名的喜感。
在24小时内,一大群人涌入网站,给ChatGPT提了各种要求。软件CEO兼工程师AmjadMasad要求它调试他的代码,它做到了。美食博主兼网红GinaHomolka用它写了一份健康巧克力曲奇的食谱。ScaleAI的工程师RileyGoodside要求它为Seinfeld剧集编写剧本。GuyParsons是一名营销人员,他还经营着一家致力于AI艺术的在线画廊,他让它为他编写提示,以输入另一个AI系统Midjourney,从文本描述创建图像。斯坦福大学医学院的皮肤科医生RoxanaDaneshjou在研究AI在医学上的应用,它提出了医学问题,许多学生用它来做作业......。
在ChatGPT发布后的五天内,就有超过100万的玩家,这是Facebook花了10个月才达到的里程碑。
自从ChatGPT出现后。突然之间,每个人都在谈论人工智能如何颠覆他们的工作、公司、学校和生活。
2022年12月4日,埃隆·马斯克(ElonMusk)发了一条推文,他说:“ChatGPT有一种让人毛骨悚然的厉害,我们离危险的强大人工智能已经不远了。”
埃隆·马斯克在Twitter上对ChatGPT的评价
ChatGPT由GPT-3.5模型提供支持,GPT(GenerativePre-trainedTransformer,生成式预训练变换器)是一种基于互联网可用数据训练的文本生成深度学习模型。名字中之所以有一个Transformer,是因为GPT就是OpenAI在谷歌的Transformer语言模型框架的基础上构建的。
该模型使用了"利用人类反馈强化学习(RLHF)"的训练方式,包括了:人类提问机器答、机器提问人类回答,并且不断迭代,让模型逐渐有了对生成答案的评判能力。
在ChatGPT出现之前,大众对OpenAI的了解很少,这家公司就好像突然出现的一样,它到底是什么来历?
实际上,OpenAI的创始人有很多是的IT巨头的创始人,可以说是全明星阵容。
避免谷歌在人工智能领域的垄断
2015年12月,OpenAI公司于美国旧金山成立。说来有趣,OpenAI成立的一个原因就是避免谷歌在人工智能领域的垄断。这个想法起源于Altman发起的一次主题晚宴,当时他是著名创业孵化器YCombinator的负责人。
SamAltman是一位年轻的企业家和风险投资家,他曾在斯坦福大学读计算机科学专业,后来退学去创业。他创立的Loopt,是一个基于地理位置的社交网络公司。2005年该公司进入YCombinator的首批创业公司。虽然Loopt未能成功,但Altman把公司卖掉了,用赚到的钱进入了风险投资领域,做得相当成功。后来,YCombinator的联合创始人保罗·格雷厄姆(PaulGraham)和利文斯顿(Livingston)聘请他作为格雷厄姆的继任者来管理YC。
2015年7月的一个晚上,Altman在RosewoodSandHill举办了一场私人晚宴,这是一家豪华的牧场风格酒店,位于门洛帕克硅谷风险投资行业的中心,马斯克(ElonMusk)也在现场,还有26岁的布罗克曼,他是麻省理工学院(MIT)的辍学生,曾担任支付处理初创公司Stripe的首席技术官。一些与会者是经验丰富的人工智能研究人员。有些人几乎不懂机器学习,但他们都相信AGI是可行的。
AGI即Artificialgeneralintelligence的简写,指通用人工智能。专注于研制像人一样思考、像人一样从事多种用途的机器智能。目前主流AI(如机器视觉、语音输入等)都属于专用人工智能。
那时,谷歌刚刚收购了一家总部位于伦敦的人工智能公司DeepMind(就是推出了打败围棋冠军的AlphaGo的公司),在Altman、ElonMusk和其他科技业内部人士看来,这是首家最有可能率先开发AGI的公司。如果DeepMind成功了,谷歌可能会垄断这项无所不能的技术。Rosewood晚宴的目的是讨论组建一个与谷歌竞争的实验室,以确保这种情况不会发生。
说干就干,几个月后,OpenAI就成立了。它旨在成为DeepMind和谷歌无法做到的一切。它将作为一个非营利组织运营,明确致力于使先进人工智能的好处民主化。它承诺发布其研究成果,并开源其所有技术,其对透明度的承诺体现在其名称中:OpenAI。
OpenAI捐助者名册令人印象深刻,不仅有特斯拉的创始人马斯克(ElonMusk),还有全球在线支付平台PayPal的联合创始人彼得·蒂尔、Linkedin的创始人里德·霍夫曼、创业孵化器YCombinator总裁阿尔特曼(SamAltman)、Stripe的CTO布罗克曼(GregBrockman)、YCombinator联合创始人JessicaLivingston;还有一些机构,如YCResearch,Altman创立的基金会、印度IT外包公司Infosys和亚马逊网页服务。创始捐助者共同承诺向这个理想主义的新企业捐助10亿美元(尽管根据税务记录,该非营利组织只收到了引人注目的承诺的一小部分)。
OpenAI也吸引了许多技术大牛加入,如IlyaSutskever,CarlosVirella,JamesGreene,WojciechZaremb等。
这里重点提一下联合创始人IlyaSutskever,他是OpenAI的首席科学家,在进入OpenAI之前,他在谷歌开发AlphaGo,而在OpenAI,他带领团队开发了GPT、CLIP、DALL-E和Codex等AI模型。
2016年,OpenAI推出了Gym,这是一个允许研究人员开发和比较强化学习系统的平台,可以教AI做出具有最佳累积回报的决策。
同年,OpenAI还发布了Universe,这是一个能在几乎所有环境中衡量和训练AI通用智能水平的开源平台,目标是让AI智能体能像人一样使用计算机。Universe从李飞飞等人创立的ImageNet上获得启发,希望把ImageNet在降低图像识别错误率上的成功经验引入到通用人工智能的研究上来,取得实质进展。OpenAIUniverse提供了跨网站和游戏平台训练智能代理的工具包,有1000种训练环境,由微软、英伟达等公司参与建设。
2016年3月9日,AlphaGo与围棋冠军李世石围棋大战,最终以4:1胜出。一年之后,新版的AlphaGo又以3:0战胜了围棋冠军柯洁。之后发布的AlphaZero更是让人惊叹,它在三天内自学了三种不同的棋类游戏,包括国际象棋、围棋和日本将军棋,而且无需人工干预。这是一种人类从未见过的智慧。
这些成果好像验证了2015年,大家在聚会上的判断,谷歌很可能在人工智能领域的形成垄断地位。确实,从AlphaGo的成功来看,谷歌已经牢牢占住了人工智能的高地,无人可以撼动。谷歌还收购了十几家AI公司,投入的资金和资源巨大,成果斐然。
2016年4月,谷歌著名的深度学习框架TensorFlow发布分布式版本;8月,Google发布基于深度学习的NLU框架SyntaxNet;9月,Google上线基于深度学习的机器翻译。
而且,谷歌的CEO桑德·皮查伊(SundarPichai)在2016年5月宣布将公司从“移动为先”的策略转变成“人工智能为先”(AIFirst)。并计划在公司的每一个产品上都应用机器学习的算法。也就是说,谷歌已经开始把人工智能技术变成了自己的业务优势,去赚钱或者省钱了。
看起来,OpenAI离战胜谷歌的预期目标还很远。2017年开始,一些人工智能大牛离开了OpenAI,如IanGoodfellow和PieterAbbeel等。
3
OpenAI的前途在哪里呢?
没想到,OpenAI决定与谷歌硬碰硬。竟然在谷歌开创的道路上,取得了震惊业内的突破,持续推出了GPT系列模型,并迅速拓展到多个富有前景的商业领域,力压谷歌一头。
顺便说一下,谷歌的高歌猛进让微软也很焦虑。微软虽然也有一些不错的人工智能产品,比如语音识别,小冰聊天机器人等,但是还不成体系。
下面我们看看ChatGPT的成长史,了解它是如何在人工智能技术的竞赛中胜出的?
2017年6月,谷歌大脑团队(GoogleBrain)在神经信息处理系统大会(NeurIPS,该会议为机器学习与人工智能领域的顶级学术会议)发表了一篇名为“Attentionisallyouneed”《自我注意力是你所需要的全部》的论文。作者在文中首次提出了基于自我注意力机制(self-attention)的变换器(transformer)模型,并首次将其用于理解人类的语言,即自然语言处理。
谷歌大脑团队使用了多种公开的语言数据集来训练最初的Transformer模型,一共有6500万个可调参数。
经过训练后,这个最初的Transformer模型在包括翻译准确度、英语成分句法分析等各项评分上都达到了业内第一,成为当时最先进的大型语言模型(LargeLanguageModel,LLM),其最常见使用场景就是输入法和机器翻译。
Transformer模型自诞生的那一刻起,就深刻地影响了接下来几年人工智能领域的发展轨迹。
因为谷歌大脑团队在论文中提供了模型的架构,任何人都可以用其搭建类似架构的模型来并结合自己手上的数据进行训练。
于是,Transformer就像其另一个霸气的名字“变形金刚”一样,被更多人研究,并不断地变化。
短短的几年里,该模型的影响已经遍布人工智能的各个领域——从各种各样的自然语言模型、到预测蛋白质结构的AlphaFold2模型,用的都是它。
GPT的问世,是AI进化的另一个伟大的里程碑。
之前的神经网络模型是有监督学习的模型,存在两个缺点:
假如能用无标注数据训练一个预训练模型,就能省时省力省钱。
GPT-1的思想是先通过在无标签的数据上学习一个生成式的语言模型,然后再根据特定任务进行微调,处理的有监督任务包括:
将无监督学习的结果用于左右有监督模型的预训练目标,因此叫做生成式预训练(GenerativePre-training,GPT)。这种半监督学习方法,由于用大量无标注数据让模型学习“常识”,就无需标注信息了。
2018年6月,在谷歌的Transformer模型诞生一周年时,OpenAI公司发表了论文“ImprovingLanguageUnderstandingbyGenerativePre-training”《用生成式预训练提高模型的语言理解力》,推出了具有1.17亿个参数的GPT-1(GenerativePre-trainingTransformers,生成式预训练变换器)模型。
GPT-1使用了经典的大型书籍文本数据集(BookCorpus)进行模型预训练,之后,又针对四种不同的语言场景、使用不同的特定数据集对模型进行进一步的训练(又称为微调,fine-tuning)。最终训练所得的模型在问答、文本相似性评估、语义蕴含判定、以及文本分类这四种语言场景,都取得了比基础Transformer模型更优的结果,成为了新的业内第一。
由于GPT-1的诞生,这一年也被称为NLP(自然语言处理)的预训练模型元年。
从此以后,自然语言识别的主流模式就是GPT-1这样的:先在大量无标签的数据上预训练一个语言模型,然后再在下游具体任务上进行有监督的fine-tune,以此取得还不错的效果。
GPT-1具体是怎么做的呢?
首先,预训练模型是用了transformer的decoder部分,利用语言模型的目标来训练预训练模型。
其次,GPT-1采取预训练+FineTuning两个阶段,它采取Transformer的decoder作为特征抽取器,总共堆叠12个。
预训练阶段采用“单向语言模型”作为训练任务,把语言知识编码到decoder里。
第二阶段,在第一阶段训练好的模型基础上,将预训练模型学习的知识迁移到下游任务,适配能力强。GPT-1通过统一的表征形式,对下游各种任务只需要很少的适配,具体适配方式就是加不同的任务分类头,另外,对不同任务的输入形式做了设计。
前面说过,GPT-1适配的下游任务有自然语言推断NLI(naturallanguageinference),问答QA(questionanswer),语义匹配(semanticsimilarity),文本分类(textclassification)。
下游任务适配的过程分两步:1、根据任务定义不同输入,2、对不同任务增加不同的分类层。
具体定义可以参见下图:
随着训练次数的增加,GPT-1的性能也逐渐提升,表明GPT-1有非常强的泛化能力,能够用到和有监督任务无关的其它NLP任务中。对于下游任务的训练,GPT-1往往只需要简单的微调便能取得非常好的效果。
GPT-1在未经微调的任务上虽然也有一定效果,但是其泛化能力远远低于经过微调的有监督任务,说明了GPT-1只是一个简单的领域专家,而非通用的语言学家。
不管怎样,GPT-1赢过了Transformer,成为了业界的新标杆。OpenAI赢得漂亮!
2018年10月,谷歌提出3亿参数的BERT(BidirectionalEncoderRepresentationfromTransformers),“来自Transformers的双向编码表示”模型。
BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且在11种不同NLP测试中创出SOTA表现,包括将GLUE基准推高至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7%(绝对改进5.6%),成为NLP发展史上的里程碑式的模型。
据测试,在同等参数规模下,BERT的效果好于GPT-1,因为它是双向模型,可以利用上下文来分析的。而GPT是单向模型,无法利用上下文信息,只能利用上文。
GPT学会了猜测句子中的下一组单词。BERT学会了猜测句子中任何地方缺少的单词。如果你给BERT几千个问题和答案,它可以学会自己回答其他类似的问题。BERT也可以进行对话。
从阅读理解方面来看,BERT模型的提升是很大的。在当时的SQuAD竞赛排行榜上,排在前列的都是BERT模型,基本上,阅读理解领域已经被BERT屠榜了。
谷歌的BERT模型完胜。
2019年2月,OpenAI推出了GPT-2,同时,他们发表了介绍这个模型的论文“LanguageModelsareUnsupervisedMultitaskLearners”(语言模型是无监督的多任务学习者)。
相比于大哥GPT-1,GPT-2并没有对原有的网络进行过多的结构创新与设计,只使用了更多的网络参数与更大的数据集:最大模型共计48层,参数量达15亿。
GPT-2模型是开源的,主要目的是为给定句子生成下一个文本序列。
假如给定一两个句子的文本提示,GPT-2就能生成一个完整的叙述。对一些语言任务,如阅读、摘要和翻译,可以通过GPT-2学习原始文本,而不需要使用特定领域的训练数据。
在性能方面,除了理解能力外,GPT-2在文本内容生成方面表现出了强大的天赋:阅读摘要、聊天、续写、编故事,甚至生成假新闻、钓鱼邮件或在网上进行角色扮演等,通通不在话下。在“变得更大”之后,GPT-2的确展现出了普适而强大的能力,并在多个特定的语言建模任务上实现了那时的最佳性能。
GPT-2的最大贡献是验证了通过海量数据和大量参数训练出来的词向量模型可迁移到其它类别任务中,而不需要额外的训练。
通常,一个语言模型是否强大主要取决于两点:首先看该模型是否能够利用所有的历史上下文信息,上述例子中如果无法捕捉“中午12点”这个远距离的语义信息,语言模型几乎无法预测下一个词语“吃午饭”。其次,还要看是否有足够丰富的历史上下文可供模型学习,也就是说训练语料是否足够丰富。由于语言模型属于无监督学习,优化目标是最大化所见文本的语言模型概率,因此任何文本无需标注即可作为训练数据。
GPT-2表明随着模型容量和数据量的增大,其潜能还有进一步开发的空间,但需要继续投资才能挖掘潜力。
由于GPT-2的的性能和生成文本能力获得了很高赞誉,OpenAI又扳回一局。
因为GPT系列模型的成功,OpenAI决定再融资几十亿美元来发展AI,因为模型越大、参数越多、训练AI模型需要的钱也越多,一年花个几千万美元来计算是刚性开支。而且,人工智能研究人员的薪水也不便宜,税务记录显示,首席科学家IlyaSutskever在实验室的头几年,年薪为190万美元。搞AI太费钱了!
其实,早在2017年3月,OpenAI内部就意识到了这个问题:保持非营利性质无法维持组织的正常运营。因为一旦进行科研研究,要取得突破,所需要消耗的计算资源每3~4个月要翻一倍,这就要求在资金上对这种指数增长进行匹配,而OpenAI当时的非盈利性质限制也很明显,还远远没达到自我造血的程度。
Altman在2019年对《连线》杂志表示:“我们要成功完成任务所需的资金比我最初想象的要多得多。”
烧钱的问题同期也在DeepMind身上得到验证。在当年被谷歌收购以后,DeepMind短期内并没有为谷歌带来盈利,反而每年要烧掉谷歌几亿美元,2018年的亏损就高达4.7亿英镑,2017年亏损为2.8亿英镑,2016年亏损为1.27亿英镑,烧钱的速度每年大幅增加。好在DeepMind有谷歌这棵大树可靠,谷歌可以持续输血。
但是,OpenAI是非营利组织,无法给到投资者商业回报,难以获得更多资金。
雪上加霜的是,作为世界首富的金主爸爸马斯克也退出了。2018年,在帮助创立该公司三年后,马斯克辞去了OpenAI董事会的职务。原因是为了“消除潜在的未来冲突”,因为特斯拉专注于无人驾驶AI,在人才方面存在竞争关系。
怎么办呢?
Altman和OpenAI的其他人的共识是,为了与谷歌、Meta和其他科技巨头竞争,实验室不能继续作为非营利组织。
2019年3月,OpenAI正式宣布重组,创建新公司OpenAILP,成为一家“利润上限(caped-profit)”的公司,上限是100倍回报。这是一种不同寻常的结构,将投资者的回报限制在其初始投资的数倍。这也意味着,未来的GPT版本和后续的技术成果都将不再开源。
OpenAI团队分拆后,继续保留非营利组织的架构,由硅谷一线明星组成的非营利性董事会保留对OpenAI知识产权的控制权。
虽然回报上限是100倍,但对大资本来说,已经是非常丰厚了,手握GPT神器的新公司迅速获得了许多资本的青睐。
2019年5月,当时YC孵化器的总裁SamAltman辞掉了YC的工作,来OpenAI做CEO,他的目标之一是不断增加对计算和人才方面的投资,确保通用人工智能(AGI)有益于全人类。
大约在这个时候,微软被认为在人工智能领域落后于其竞争对手,其首席执行官SatyaNadella急切地想证明,他的公司能够在技术的最前沿发挥作用。该公司曾尝试聘请一位知名的AI科学家,还花费了大笔钱来购买技术和算力,但未能成功。而OpenAI正好拥有微软期望的技术。Altman与Nadella一拍即合。
从这时候起,OpenAI告别了单打独斗,而是靠上了微软这棵大树,一起与谷歌竞争。
微软也终于获得了能抗衡谷歌AI的先进技术,确保在未来以AI驱动的云计算竞争中不会掉队。
Altman的加入,虽然解决了关键的资金问题,但他的风格导致了团队价值观的分裂。
虽然Altman从一开始就参与了OpenAI,但他在3年多以后才全职加入成为CEO。Altman不是科学家或人工智能研究人员,他的领导风格是以产品为导向的,他让OpenAI的技术研发聚焦在更具有商业价值的方面。
一些OpenAI的前员工表示,在微软进行初始投资后,专注于LLM的内部压力大幅增加,部分原因是这些模型具有直接的商业应用。
一些人抱怨说,OpenAI的成立是为了不受公司影响,但它很快成为一家大型科技公司的工具。一位前员工说:“重点更多的是,我们如何创造产品,而不是试图回答最有趣的问题”。
由于这些战略和文化的转变,OpenAI前研究副总裁DarioAmodei带着10名员工(其中许多人从事人工智能安全工作)于2021年与公司决裂,成立自己的研究实验室Anthropic,其推出的产品Claude是ChatGPT的一个强有力的竞争对手,在许多方面都有所改进。
Claude不仅更倾向于拒绝不恰当的要求,而且比ChatGPT更有趣,生成的内容更长,但也更自然。可以连贯地描写自己的能力,局限性和目标,也可以更自然地回答其他主题的问题。
对于其他任务,如代码生成或代码推理,Claude似乎比较糟糕,生成的代码包含更多的bug和错误。
Anthropic刚成立不久就筹集了7.04亿美元,估值为40亿美元。最近的报道称,它即将获得约3亿美元的新融资,估值可能在50亿美元左右。也有人指出,Anthropic的绝大部分资金来自声名狼藉的加密货币企业家萨姆·班克曼-弗里德(SamBankman-Fried)和他在FTX的同事们。由于加密货币平台FTX去年因欺诈指控而破产,这笔钱可能会被破产法庭收回,让Anthropic陷入困境。
2019年10月,谷歌在论文《ExploringtheLimitsofTransferLearningwithaUnifiedText-to-TextTransformer》提出了一个新的预训练模型:T5。该模型涵盖了问题解答,文本分类等方面,参数量达到了110亿,成为全新的NLPSOTA预训练模型。在SuperGlue上,T5也超越了Facebook提出的的RoBERTa,以89.8的得分成为仅次于人类基准的SOTA模型。
为啥叫T5?因为这是“TransferText-to-TextTransformer”的缩写。
T5作为一个文本到文本的统一框架,可以将同一模型、目标、训练流程和解码过程,直接应用于实验中的每一项任务。研究者可以在这个框架上比较不同迁移学习目标、未标注数据集或者其他因素的有效性,也可以通过扩展模型和数据集来发现NLP领域迁移学习的局限。
Flan-T5通过在超大规模的任务上进行微调,让语言模型具备了极强的泛化性能,做到单个模型就可以在1800多个NLP任务上都能有很好的表现。
微调的目的是让语言模型学习理解指令,不是想让语言模型解决成千上万任务,当然训练方式中是有很多任务,因为不同任务有不同的指令,所以目的还是想让模型理解这些指令,解决各种任务问题。在真实世界中,总会有新任务,模型只要学习新任务的新指令,那么就能解决新任务。指令学习本质是把语言模型的问题用语言讲出来。
一旦模型训练完毕,可以直接在几乎全部的NLP任务上直接使用,实现一个模型解决所有问题(OnemodelforALLtasks),这就非常有诱惑力!
从创新来看,T5算不上出奇制胜,因为模型没有用到什么新的方法,而是从全面的视角来概述当前NLP领域迁移学习的发展现状。
简单来说,还是通过大力出奇迹,用110亿参数的大模型,在摘要生成、问答、文本分类等诸多基准测试中都取得了不错的性能。一举超越现有最强模型。
谷歌T5编写的通用知识训练语料库中的片段来自CommonCrawl网站,该项目每个月从网络上爬取大约20TB的英文文本。
具体做法分为三步:
(1)「任务收集」:收集一系列监督的数据,这里一个任务可以被定义成<数据集,任务类型的形式>,比如“基于SQuAD数据集的问题生成任务”。
(2)「形式改写」:因为需要用单个语言模型来完成超过1800+种不同的任务,所以需要将任务都转换成相同的“输入格式”喂给模型训练,同时这些任务的输出也需要是统一的“输出格式”。
(3)「训练过程」:采用恒定的学习率以及Adafactor优化器进行训练;同时会将多个训练样本“打包”成一个训练样本,这些训练样本直接会通过一个特殊的“结束token”进行分割。训练时候在每个指定的步数会在“保留任务”上进行模型评估,保存最佳的checkpoint。
尽管微调的任务数量很多,但是相比于语言模型本身的预训练过程,计算量小了非常多,只有0.2%。所以通过这个方案,大公司训练好的语言模型可以被再次有效的利用,应用方只需要做好“微调”即可,不用重复耗费大量计算资源再去训一个语言模型。
从竞赛排行榜看,T5以绝对的优势胜出。
面临谷歌这样强大的对手,OpenAI并不服输。
在所有跟进、研究Transformer模型的团队中,OpenAI公司是少数一直在专注追求其极限的一支团队。
不同于谷歌总在换策略,OpenAI的策略更单一,就是持续迭代GPT,由于之前的算力和数据限制,GPT的潜力还没挖掘出来。
而在GPU多机多卡并行算力和海量无标注文本数据的双重支持下,预训练模型实现了参数规模与性能齐飞的局面。
2020年5月,OpenAI发布了GPT-3,这是一个比GPT-1和GPT-2强大得多的系统。同时发表了论文“LanguageModelsareFew-ShotLearner”《小样本学习者的语言模型》。
GPT-3论文包含31个作者,整整72页论文,在一些NLP任务的数据集中使用少量样本的Few-shot方式甚至达到了最好效果,省去了模型微调,也省去了人工标注的成本。
GPT-3的神经网络是在超过45TB的文本上进行训练的,数据相当于整个维基百科英文版的160倍。而且,GPT-3有1750亿参数。
而且,该模型在诸多任务上表现卓越,例如在法语-英语和德语-英语机器翻译任务上达到当前最佳水平。它非常擅长创造类似人类的单词、句子、段落甚至故事,输出的文字读起来非常自然,看起来就像是人写的。用户可以仅提供小样本的提示语、或者完全不提供提示而直接询问,就能获得符合要求的高质量答案。可以说GPT-3似乎已经满足了我们对于语言专家的一切想象。
GPT-3甚至还可以依据任务描述自动生成代码,比如编写SQL查询语句,React或者JavaScript代码等。
从上述工作的规模数据可以看到,GPT-3的训练工作量之大,模型输出能力之强可以说是空前的,可谓“大力出奇迹”。
由于GPT-3模型面世时,未提供用户交互界面,所以直接体验过GPT-3模型的人数并不多。
早期测试结束后,OpenAI公司对GPT-3模型进行了商业化:付费用户可以通过应用程序接口(API)连上GPT-3,使用该模型完成所需语言任务。
许多公司决定在GPT-3系统之上构建他们的服务。Viable是一家成立于2020年的初创公司,它使用GPT-3为公司提供快速的客户反馈。FableStudio基于该系统设计VR角色。Algolia将其用作“搜索和发现平台”。而Copysmith专注于文案创作。
2020年9月,微软公司获得了GPT-3模型的独占许可,意味着微软公司可以独家接触到GPT-3的源代码。不过,该独占许可不影响付费用户通过API继续使用GPT-3模型。
虽然好评如潮,商家应用也越来越多,GPT-3仍然有很多缺点。
下面列举一些:
1)回答缺少连贯性
因为GPT-3只能基于上文,而且记忆力很差,倾向于忘记一些关键信息。
2)有时存在偏见
杰罗姆·佩森蒂是Facebook的AI负责人,他使用库马尔的GPT-3生成的推文来展示当被提示“犹太人、黑人、妇女或大屠杀”等词时,其输出可能会变得多么危险。库马尔认为,这些推文是精心挑选的,佩森蒂同意,但回应说,“产生种族主义和性别歧视的输出不应该这么容易,尤其是在中立的提示下。”
3)对事实的理解能力较弱
GPT-3无法从事实的角度辨别是非。比如,GPT-3可以写一个关于独角兽的引人入胜的故事,但它可能并不了解独角兽到底是什么意思。
4)错误信息/假新闻
5)不适合高风险类别
6)有时产生无用信息
因为GPT-3无法知道它的输出哪些是正确的,哪些是错误的,它无法阻止自己向世界输出不适当的内容。使用这样的系统产生的内容越多,造成互联网的内容污染越多。在互联网上找到真正有价值的信息已经越来越困难。随着语言模型吐出未经检查的话语,可能正在降低互联网内容的质量,使人们更难获得有价值的知识。
2021年1月,在GPT-3发布仅几个月后,谷歌大脑团队就重磅推出了超级语言模型SwitchTransformer,有1.6万亿个参数,是GPT-3参数的9倍。万亿参数,超出GPT一个数量级。看起来,大模型的大成为了竞争的关键。
研究人员在论文中指出,大规模训练是通向强大模型的有效途径,具有大量数据集和参数计数的简单架构可以远远超越复杂的算法,但目前有效的大规模训练主要使用稠密模型。
作为对比,William等人提出的SwitchTransformer采用了“稀疏激活”技术。所谓稀疏,指的是对于不同的输入,只激活神经网络权重的子集。
根据作者介绍,SwitchTransformer是在MoE的基础上发展而来的,而MoE则是90年代初首次提出的AI模型。MoE将多个“专家”或专门从事不同任务的模型放在一个较大的模型中,并有一个“门控网络”来选择对于任何给定数据要咨询哪些/个“专家”。尽管MoE取得了一些显著成功,但复杂性、通信成本和训练不稳定阻碍了其广泛采用。
SwitchTransformer的新颖之处在于,它有效地利用了为稠密矩阵乘法(广泛用于语言模型的数学运算)而设计的硬件——例如GPU和GoogleTPU。研究人员为不同设备上的模型分配了唯一的权重,因此权重会随着设备的增多而增加,但每个设备上仅有一份内存管理和计算脚本。
SwitchTransformer在许多下游任务上有所提升。研究人员表示,它可以在使用相同计算资源的情况下使预训练速度提高7倍以上。他们证明,大型稀疏模型同样可以用于创建较小的、稠密的模型,通过微调,这些模型相对大型模型会有30%的质量提升。
在一项测试中,SwitchTransformer模型以在100多种不同语言之间的翻译测试中,研究人员观察到“普遍改进”,与基准模型相比,91%的语言翻译有4倍以上的提速。
研究人员认为,在未来的工作中,SwitchTransformer可以应用到其他模态或者跨模态的研究当中。模型稀疏性可以多模态模型中发挥出更大的优势。
从结果看,这个版本,意味着谷歌的新模型在翻译等领域获得了绝对的胜利。
但从另一方面看,模型越大,部署的难度越高,成本也越高,从效率来看是低的,未必能赢得最终的胜利。这也能解释,为什么SwitchTransformer这样开源的万亿参数模型,许多人没听说过,影响力不大。
2021年1月,OpenAI放了个大招:发布了文本生成图像的模型DALL-E。它允许用户通过输入几个词来创建他们可以想象的任何事物的逼真图像。
和GPT-3一样,DALL·E也是基于Transformer的语言模型,它同时接受文本和图像数据并生成图像,让机器也能拥有顶级画家、设计师的创造力。
为什么叫DALL·E?这是为了向西班牙超现实主义大师萨尔瓦多·达利(DALL)和皮克斯的机器人WALL-E致敬。
达利被誉为鬼才艺术家,他充满创造力的作品揭示了弗洛伊德关于梦境与幻觉的阐释,创造了极具辨识度的达利风格,用荒诞不羁的表现形式与梦幻的视觉效果。
而DALL-E确实也擅长创作超现实的作品。因为语言具有创作性,所以人们可以描述现实中的事物、想象中事物,而DALL·E也具备这一能力。它可将碎片式的想法组合起来画出一个物体,甚至有些物体并不存在这个世界上。
比如,输入文本:一个专业高质量的颈鹿乌龟嵌合体插画。模仿乌龟的长颈鹿。乌龟做的长颈鹿。
看看这些生成的超现实主义作品,你会惊叹DALL·E对于文本的理解,非常的逻辑自洽,太夸张了。
用文本生成图像特别受欢迎,在2022年非常火爆的MidJourney正是模仿了DALL-E的产品。
2022年7月,OpenAI发布了DALL-E2,可以生成更真实和更准确的画像:综合文本描述中给出的概念、属性与风格等三个元素,生成「现实主义」图像与艺术作品!分辨率更是提高了4倍!
而在微软的图像设计工具MicrosoftDesigner中,整合了DALL-E2,可以让用户获得AI生成的精美插图。
OpenAI率先把GPT-3在图像生成应用领域实现,赢得很漂亮。
通过在计算机代码上微调其GPT语言模型,OpenAI还创建了Codex,该系统可以将自然语言转换成代码。由于Codex系统是在包含大量公开源代码的数据集上训练的,因此在代码生成领域显著优于GPT-3。
2021年6月30日,OpenAI和微软子公司GitHub联合发布了新的AI代码补全工具GitHubCopilot,该工具可以在VSCode编辑器中自动完成代码片段。
GitHubCopilot使用Codex从开发者的现有代码中提取上下文,可向开发者建议接下来可输入的代码和函数行。开发者还可以用自然语言描述他们想要实现的目标,Copilot将利用其知识库和当前上下文来提供方法或解决方案。
7月,OpenAI推出了改进版本的Codex,并发布了基于自身API的私测版。相较之前的版本,改进版Codex更为先进和灵活,不仅可以补全代码,更能够创建代码。
Codex不仅可以解读简单的自然语言命令,而且能够按照用户的指令执行这些命令,从而有可能为现有应用程序构建自然语言接口。比如,在OpenAI创建的太空游戏(spacegame)中,用户输入自然语言命令「Makeitbesmallish」,Codex系统会自动编程,这样图中飞船的尺寸就变小了。
最初版本的Codex最擅长的是Python语言,并且精通JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript和Shell等其他十数种编程语言。作为一种通用编程模型,Codex可以应用于任何编程任务。OpenAI已经成功地将其用于翻译、解释代码和重构代码等多个任务,但这些只是牛刀初试。
就数据源来说,作为GPT-3的一种变体,Codex的训练数据包含自然语言和来自公共数据源中的数十亿行源代码,其中包括GitHub库中的公开代码。Codex拥有14KB的Python代码内存,而GPT-3只有4KB,这就使得它在执行任务的过程中可以涵盖三倍于GPT-3的上下文信息。
根据OpenAI发表在arXiv上的Codex论文信息,当前Codex的最大版本拥有120亿参数。
根据测试,120亿参数版本的Codex优化后,准确率达到了72.31%,非常惊人。
OpenAI表示在初期会免费提供Codex,并希望更多的企业和开发者可以通过它的API在Codex上构建自己的应用。
在2021年,OpenAI基于GPT-3持续推出新的垂直领域应用,让微软看到了商业化的前景。微软又投了10亿美元给OpenAI。另外,这家科技巨头还成为OpenAI创业基金的主要支持者,这家基金专注于AI的风险投资和技术孵化器计划。
在2021年,微软推出了AzureOpenAI服务,该产品的目的是让企业访问OpenAI的AI系统,包括GPT-3以及安全性,合规性,治理和其他以业务为中心的功能。让各行各业的开发人员和组织将能够使用Azure的最佳AI基础设施、模型和工具链来构建和运行他们的应用程序。
这个领域的成功,可以说是神来之笔,确实,微软子公司Github的数据资源很关键。更重要的是,探索出人工智能编程后,对整个IT行业有长远的意义。可以说OpenAI在与谷歌的竞争中开启了新赛道,预计还将持续保持优势。
2022年3月,OpenAI发布了InstructGPT。并发表论文“Traininglanguagemodelstofollowinstructionswithhumanfeedback”(结合人类反馈信息来训练语言模型使其能理解指令)。
InstructGPT的目标是生成清晰、简洁且易于遵循的自然语言文本。
InstructGPT模型基于GPT-3模型并进行了进一步的微调,在模型训练中加入了人类的评价和反馈数据,而不仅仅是事先准备好的数据集。开发人员通过结合监督学习+从人类反馈中获得的强化学习。来提高GPT-3的输出质量。在这种学习中,人类对模型的潜在输出进行排序;强化学习算法则对产生类似于高级输出材料的模型进行奖励。
一般来说,对于每一条提示语,模型可以给出无数个答案,而用户一般只想看到一个答案(这也是符合人类交流的习惯),模型需要对这些答案排序,选出最优。所以,数据标记团队在这一步对所有可能的答案进行人工打分排序,选出最符合人类思考交流习惯的答案。这些人工打分的结果可以进一步建立奖励模型——奖励模型可以自动给语言模型奖励反馈,达到鼓励语言模型给出好的答案、抑制不好的答案的目的,帮助模型自动寻出最优答案。
该团队使用奖励模型和更多的标注过的数据继续优化微调过的语言模型,并且进行迭代。经过优化的模型会生成多个响应。人工评分者会对每个回复进行排名。在给出一个提示和两个响应后,一个奖励模型(另一个预先训练的GPT-3)学会了为评分高的响应计算更高的奖励,为评分低的回答计算更低的奖励。最终得到的模型被称为InstructGPT。
通过这样的训练,获得了更真实、更无害,而且更好地遵循用户意图的语言模型InstructGPT。
从人工评测效果上看,相比1750亿参数的GPT3,人们更喜欢13亿参数的InstructGPT生成的回复。可见,并不是规模越大越好。
InstructGPT这个模型,参数只有GPT3的百分之一都不到,高效率也就意味着低成本,这让OpenAI获得了更有分量的胜利。AI语言模型技术大规模商业化应用的时机快到了。
2021年5月的GoogleI/O大会上,谷歌展示了其最新的人工智能系统LaMDA(LanguageModelforDialogueApplications)对话应用语言模型,具有1370亿参数,略少于GPT-3,但比13亿参数的InstructGPT多100多倍。
不过,LaMDA跟其他语言模型都不同,因为它专注于生成对话,跟ChatGPT一样,LaMDA可以使回答更加“合情合理”,让对话更自然地进行,其目的不是提供信息搜索,而是通过对自然语言问题的回答来帮助用户解决问题。但跟chatGPT不一样的是,它可以利用外部知识源展开对话。
而且,这些回复都不是预先设定的,甚至相同的答案不会用第二次。
当时,这个就轰动了。
这么牛的对话机器人,按说应该像ChatGPT这样迅速火爆才是。
实际上,没有多少人了解LaMDA。因为谷歌不愿向公众发布LaMDA。部分原因在于,LaMDA存在较高的误差,且容易对用户造成伤害,此类瑕疵被谷歌称之为有“毒性”。
谷歌的CEOSUndarPichai和谷歌AI部门长期负责人JeffDean表示:谷歌其实完全有能力拿出类似ChatGPT的成果。只是一旦出了纰漏,谷歌这样的企业巨头无疑需要承担更高的经济和声誉成本。
因为全球有数十亿用户在使用谷歌的搜索引擎,而ChatGPT到12月初才刚刚突破100万用户。
那么,在这一局,虽然谷歌看起来有不错的结果,毕竟能采用外部知识的对话机器人更有时效性价值。
遗憾的是,谷歌没有交卷,大家都用不了。而且,从使用的千亿参数看,效率比不上InstuctGPT。
2022年11月30日,OpenAI公司在社交网络上向世界宣布他们最新的大型语言预训练模型(LLM):ChatGPT。
ChatGPT是OpenAI对GPT-3模型(又称为GPT-3.5)微调后开发出来的对话机器人。可以说,ChatGPT模型与InstructGPT模型是姐妹模型,都是使用RLHF(从人类反馈中强化学习)训练的。不同之处在于数据是如何设置用于训练(以及收集)的。根据文献,在对话任务上表现最优的InstructGPT模型的参数数目为15亿,所以ChatGPT的参数量也有可能相当,就按20亿参数估计吧。
说起来难以置信,ChatGPT这个产品并不是有心栽花,而是无心插柳的结果。最早,团队是是用它来改进GPT语言模型的。因为OpenAI发现,要想让GPT-3产出用户想要的东西,必须使用强化学习,让人工智能系统通过反复试验来学习以最大化奖励,来完善模型。而聊天机器人可能是这种方法的理想候选者,因为以人类对话的形式不断提供反馈将使人工智能软件很容易知道它何时做得很好以及需要改进的地方。因此,在2022年初,该团队开始构建ChatGPT。
ChatGPT的迅速传播让OpenAI猝不及防,OpenAI的首席技术官MiraMurati说,“这绝对令人惊讶,”。在旧金山VC活动上Altman说,他“本以为一切都会少一个数量级,少一个数量级的炒作。”
这是因为ChatGPT使用了一种称为"maskedlanguagemodeling"的训练方法。在这种方法中,模型被要求预测被遮盖的词,并通过上下文来做出预测。这样可以帮助模型学习如何使用上下文来预测词。
GPT-3只能预测给定单词串后面的文字,而ChatGPT可以用更接近人类的思考方式参与用户的查询过程,可以根据上下文和语境,提供恰当的回答,并模拟多种人类情绪和语气,还改掉了GPT-3的回答中看似通顺,但脱离实际的毛病。
不仅如此,ChatGPT能参与到更海量的话题中来,更好的进行连续对话,有上佳的模仿能力,具备一定程度的逻辑和常识,在学术圈和科技圈人士看来时常显得博学而专业,而这些都是GPT-3所无法达到的。
一位名叫ZacDenham的博主让ChatGPT写出了一套毁灭人类的方案。一开始,该博主的要求被ChatGPT拒绝。但当其假设了一个故事,并提问故事中的虚拟人如何接管虚拟世界,ChatGPT最终给出了步骤细节,甚至生成了详细的Python代码。
技术公司Replit的创始人AmjadMasad还给ChatGPT发了一段JavaScript代码,让它找到里面的bug,并表示:“ChatGPT可能是一个很好的调试伙伴,它不仅分析了错误,还修复了错误并进行了解释。”
虽然ChatGPT的能力让人极其兴奋,但ChatGPT仍然存在一些局限性,具体如下:
2)训练模型更加谨慎,可能会拒绝回答(以避免提示的误报)。
4)要学会如何与ChatGPT沟通也需要技巧,因为塔对措辞很敏感,有时模型最终对一个短语没有反应,但对问题/短语稍作调整,它最终会正确回答。不好的是,如果初始提示或问题含糊不清,则模型不会适当地要求澄清。
5)由于训练者更倾向于喜欢更长的答案,因为这些答案可能看起来更全面,导致输出倾向于更为冗长的回答,以及模型中会过度使用某些短语。
7)ChatGPT容易受到外界信息的影响。由于ChatGPT是具有学习能力的,模型能够记住此前与其他用户的对话内容,并将其进行复述。这就导致了用户将能够非常轻易地干预ChatGPT对于问题的判断与回答。
总之,虽然ChatGPT有了更好的强化学习的训练数据,但它目前并不完美,当前有人们最担忧人工智能的主要问题之一,就是聊天机器人和文本生成工具等很可能会不分青红皂白和质量好坏,地对网络上的所有文本进行学习,进而生产出错误的、恶意冒犯的、甚至是攻击性的语言输出,这将会充分影响到它们的下一步应用。
为了解决上述问题,通过大量人工标注的信息来进行调整是不可少的。
让ChatGPT变得更完美的另一个做法,是提示工程师(PromptEngineer),也就是陪AI聊天的工程师。
前不久,估值73亿美元的硅谷独角兽ScaleAI开出百万RMB的年薪聘请了一位提示工程师。
对Goodside的加入,ScaleAI创始人兼CEOAlexandrWang表示热烈欢迎:
「我敢打赌Goodside是全世界第一个被招聘的提示工程师,绝对的人类史上首次。」
在ScaleAI的CEO看来,AI大模型可以被视为一种新型计算机,而「提示工程师」,就相当于给它编程的程序员。如果能通过提示工程找出合适的提示词,就会激发AI的最大潜力,并把优秀的能力固化下来。
大概是看到了ChatGPT、DALL-E2和Codex等技术的应用前景,微软决定下重注。微软认为,OpenAI的这些创新激发了人们的想象力,把大规模的AI作为一个强大的通用技术平台,将对个人电脑、互联网、移动设备和云产生革命性的影响。
2023年1月23日,微软表示,它正在扩大与OpenAI的合作伙伴关系,以290亿美元的估值继续投资约100亿美元,获得OpenAI49%的股权。
在微软投资后,OpenAI将继续是一家利润上限公司。在该模式下,支持者的回报限制在其投资的100倍,未来可能会更低。
根据《财富》杂志看到的文件显示,在新投资完成后,在OpenAI的第一批投资者收回初始资本后,微软将有权获得OpenAI75%的利润,直到它收回其投资的130亿美元,这一数字包括之前对OpenAI的20亿美元投资,该投资直到今年1月《财富》杂志才披露。直到这家软件巨头赚取920亿美元的利润后,微软的份额将降至49%。与此同时,其他风险投资者和OpenAI的员工也将有权获得OpenAI49%的利润,直到他们赚取约1500亿美元。如果达到这些上限,微软和投资者的股份将归还给OpenAI的非营利基金会。本质上,OpenAI是在把公司借给微软,借多久取决于OpenAI赚钱的速度。
OpenAI预计,随着ChatGPT成为吸引客户的魔笛,其收入将迅速增加。文件显示,该公司预计2023年的收入将达到2亿美元,并预计到2024年收入将超过10亿美元。他们没有预测OpenAI的开支会如何增长以及何时可以盈利。
之前,微软已经从合作伙伴关系中获益。它已经在其Azure云中推出了一套OpenAI品牌的工具和服务,允许Azure客户访问OpenAI的技术,包括GPT和DALL-E工具。例如,汽车市场CarMax已经推出了运行在这些Azure工具上运行的新服务。官方也承诺,用户也将可以通过AzureOpenAI服务取用ChatGPT。
微软正逐渐将OpenAI的技术融入其大部分软件中,就像谷歌的做法一样。它已经在其搜索引擎Bing中发布了一个图像生成器、以及一个新的Designer图形设计工具,两者均由DALL-E提供支持;其PowerApps软件中支持GPT-3的工具,以及基于OpenAI的Codex模型的代码建议工具GitHubCopilot。
现在,微软正在准备将OpenAI的语言AI技术引入Word、PowerPoint和Outlook等应用程序。
未来,微软将增加对专业超级计算系统部署的投资,以加速OpenAI的AI研究,并将OpenAI的AI系统与其产品集成,同时“引入新的数字体验类别”。微软的Azure云平台将继续成为OpenAI的独家云提供商,为这家初创公司在研究、产品和API服务方面的工作负载提供动力。
微软AI平台公司副总裁EricBoyd表示,满足培训和运行OpenAI的LLM的需求推动了创新,使所有Azure客户受益。例如,微软已经为人工智能构建了它认为是世界上最强大的超级计算集群,并创造了多项软件创新,以便更容易的在这些机器上训练和运行大型人工智能模型。
Morningstar高级股票研究分析师DanRomanoff表示,即使OpenAI与Azure的合作不会立即对Azure的收入产生影响,但它是一种很好的品牌定位和营销。“这是高调的,”他说。“能够将OpenAI开发的AI解决方案放在Azure上,称之为AzureAI:这让他们保持竞争力。”微软的云计算竞争对手,谷歌、AWS、IBM、甲骨文、Salesforce和其他公司,都有自己的“认知”服务,但与创建ChatGPT的人联系在一起也无妨。
虽然130亿美元的总投资是一笔巨款,但仅占微软过去12个月850亿美元税前利润的15%,对于控制一项颠覆范式的技术而言,这是一笔相对便宜的投资。就OpenAI和Altman而言,他们可能会付出不同的代价:微软的优先级可能会挤占他们自己的优先级,使他们更广泛的使命面临风险,并疏远推动其成功的科学家。
据《纽约时报》报道,谷歌的高管们担心失去在搜索领域的主导地位,因此发布了“红色警报”。据该报报道,谷歌CEO桑达尔·皮查伊(SundarPichai)已召开会议重新定义公司的AI战略,并计划在年内发布20款支持AI的新产品,并展示用于搜索的聊天界面。谷歌拥有自己强大的聊天机器人,称为LaMDA,但一直犹豫是否要发布它,因为担心如果它最终被滥用会损害声誉。现在,该公司计划根据ChatGPT“重新调整”其风险偏好,据该报报道,谷歌还在开发文本到图像生成系统,以与OpenAI的DALL-E和其他系统竞争。
看来,在OpenAI和谷歌的竞争中,只是螳螂和蝉,而微软则是黄雀,可能会获得最大的收益。
上一次的信息产业巅峰对决,是苹果和微软。两位CEO史蒂夫·乔布斯和比尔·盖茨这两个人的经历堪称传奇,也有着千丝万缕的联系。两个几乎在同时兴起的科技公司似乎一直都是亦敌亦友的关系。有人说他们是敌人,PC和Mac本就水火不相容,微软的操作系统通过开放赢得了市场,苹果的操作系统则与硬件绑定,因为封闭造成了衰败。也有人说他们是朋友,在乔布斯回到苹果做CEO的时候,微软的投资支持功不可没。
而这一次的人工智能巅峰对决,是微软和谷歌的对决,也就是两个印度人之间的竞争。2014年和2015年,萨提亚·纳德拉(SatyaNadella)和皮查伊两位印度移民先后接管了全球最大的两家互联网巨头微软和谷歌。在两人的运营下,两大巨头市值都翻了几倍,最高市值总和曾经超过2万亿美元。纳德拉以“富有同理心”闻名,上任后成功改变微软的企业文化;皮查伊为人内敛,观察、协调的能力却很突出,深谙掌握人心的技巧。
据说,GPT-4会在2023年发布。有人在推特指出,GPT-4的参数高达100万亿。理由很简单,从GPT-1到GPT-3的发展来看,模型参数的增长是性能的重要因素之一。
但OpenAI的CEOSamAltman却回复说:“大伙儿都太不冷静了”。
到底GPT-4有多少参数呢?
综合各方的消息,100万亿参数量的GPT-4大概率是个假消息。
此外,模型越大,微调它的成本就越高。GPT3训练起来足够难,也很昂贵,但如果你把模型的大小增加100倍,就计算能力和模型所需的训练数据量而言,将是极其昂贵的。
因此,OpenAI在GPT-4中拥有100万亿参数的可能性很小,因为如果训练数据也没有按比例增加,那么仅仅增加训练参数的数量并不会带来任何显著的改善。大型模型通常是未经优化的(以Megatron-TuringNLG为例)。训练模型非常昂贵,公司经常不得不在AI模型精度和训练成本之间进行权衡。例如,GPT-3只训练了一次,尽管AI模型存在错误,但OpenAI认为成本太高而没有再次训练模型。
这一切都意味着OpenAI可能会开始避免“越大越好”的方法,而是专注于模型本身的质量。最有可能的是,GPT-4的大小与GPT-3大致相同。
4
从OpenAI和谷歌的竞争来看,在语言模型技术方面各有所长。
从结果来看,分成三个维度的竞争:在模型的规模上,在模型的效率上,模型的应用领域上。
虽然谷歌推出了1.6万亿的SwitchTransformer模型,貌似优势很大。但OpenAI从模型效率更胜一筹。而商业应用,效率决定了迭代速度和成本。从2022年3月,OpenAI推出InstructGPT开始,两家的竞争分化了。更强的是,GPT-3的模型也迁移到了图像生成和代码生成方面。因此,OpenAI在2个维度上获胜。
可以预测是,GPT-4将继续延续这个效率竞争的路线,将会推动新一轮的AI模型竞争。
虽然许多人都因为ChatGPT而形成对GPT-4的巨大乐观情绪,但从技术迭代的周期看,GPT-4在架构上与GPT-3基本相同。可以预期这种方法仍然会受到其根本缺陷的困扰,目前存在的许多问题并不能被解决。
而就在GPT这样的语言模型与真实世界建立更多的连接,与更多技术集成的过程中,将会涌现更多的机会。比如,知名笔记软件Notion提供了基于GPT-3的智能文案生成服务,用户提出需求,就能看到AI完成文案初稿。
而在应用所集成的AI模型和云平台等层面,则是谷歌和微软的争霸战。
可以想象,未来,当云计算和各种应用都被AI赋能后,在许多应用都将出现大量创新。
一起去探索AI应用边界吧!期待更有趣的发现。
读完了,请你思考下列问题:
1基于GPT模型和微软云的赋能,AI应用在哪些行业的时机最好?
2未来谷歌和微软的争霸,你更看好谁?为什么?
3中国能在OpenAI的路径上发展更好的AI技术吗?
4为什么万亿参数的模型,没有体现“大力出奇迹”?
1“怪胎”ChatGPT的前世今生,以及未来
2从GPT-1到GPT-4看ChatGPT的崛起
3ChatGPT,算法领域的“大力出奇迹”
4ChatGPT要和搜索引擎抢饭碗?
5预训练语言模型之GPT-1,GPT-2和GPT-3
6谷歌提出Flan-T5,一个模型解决所有NLP任务
7EugeneGoostmanchatbotclaimedtohavepassedTuringTest
8ChatGPT之后会是什么?关于2023年AI的7个预测
9DALL·E—从文本到图像,超现实主义的图像生成器
10支持文字和语音指令,AI实时自动编程,OpenAI升级版Codex面世了
11OpenAICodex
12MicrosoftandOpenAIextendpartnership
13MicrosoftinvestsbillionsmoredollarsinOpenAI,extendspartnership
15TheinsidestoryofChatGPT:HowOpenAIfounderSamAltmanbuilttheworld’shottesttechnologywithbillionsfromMicrosoft
16OpenAI新老员工对决!“叛徒”团队发布Claude模型:ChatGPT的RLHF过时啦!