学习大模型的前沿技术与行业应用场景
我要投稿
“在任何一项足够先进的技术和魔法之间,我们无法做出区分”,这是英国科幻作家亚瑟·克拉克三定律之一。相信过去的一年多,令人目不暇接的生成式AI,就让大家体验到了什么是魔法般的科技。现在应该没人会质疑,最先进的语言模型可以完全通过图灵测试;我们靠感官已经很难分辨AI生成的图像和音乐了,AI技术几周的变化,就超过了过去几年的发展。
JensenHuang在台北Computex2024上这样的比喻:“在十九世纪90年代末期,NikolaTesla发明了交流发电机,而Nvidia现在发明了AI发电机。交流发电机生成电子;AI发电机生成的是Token,这两样东西都有巨大的市场机会,Token几乎可以应用于每个行业,这就是为什么这是一场新的工业革命”。
全文36000字,共分五个章节:
“我认为生成式AI革命在规模上可以与工业革命或电的发明相提并论。”-神经网络之父GeoffreyHinton去年离职Google后在接受CBS采访时提到。
2022年十一月底OpenAI的ChatGPT横空出世,原本被通胀和加息折磨得萎靡不振的美股,突然被新一轮的生成式AI革命给原地托起。除了Nvidia卖GPU带来了真实收入暴增之外,大多数的热情并非来自于收入增长,而是由于大家急于构建更大的AI模型,热情来自于对未来业务的梦想。大多数公司心目中明确的目标就是赶上OpenAI,甚至超越它,尤其是美股的科技七巨头(MagnificentSeven)。
那么问题来了,OpenAI先发优势能够保持多久?SamAltman用他独特的驾驭能力,先是吸引微软为OpenAI直接投入超过100亿美元的算力支持;现在又通过与Apple的合作,将ChatGPT整合到了Apple生态,从边缘设备入口直接获取用户,毕竟ChatGPT的活跃用户已经连续几个月都没有增长,而最大对手GoogleGemini的用户却在节节攀升。
第一方面是算力。按照依旧可行的规模理论(ScalingLaw),足够多的算力和足够好的数据,就会有足够强大的模型!因此,只要算力足够,Google与Meta就能匹敌OpenAI。据传Gemini2Ultra将在各方面超越GPT-4Turbo。此外,Meta预计在今年夏天发布的Llama3405B也将达到与GPT-4匹敌的水平,还是开源的。这意味着只要拥有足够的H100服务器,就能达到GPT-4级别的智能。
在微软这边,虽然巨额投资了OpenAI,但GPT-4再强大也毕竟不是自己的。从SemiAnalysis的内部消息了解到,微软也并没有将投资的大部分算力直接给到OpenAI使用;就在不久前,微软完成了对InflectionAI的收购,把Deepmind的前联合创始人穆斯塔法·苏莱曼(MustafaSuleyman)纳入麾下,准备利用他们专业的预训练团队和数据集,再加上自己的合成数据,从头训练一个和GPT-4相当的大约五千亿参数规模的MOE模型MAI-1。
另一方面是数据。因为起步早,OpenAI在收集使用数据方面一直处于领先地位。但现在情况已经发生了改变,公开的用于训练的文本数据几乎耗尽,所以大家都不约而同地采用合成数据。但文本之外的图像和视频,需要更直接地接触消费者,才能拿到新数据。Google与Meta各自的产品线都覆盖了超过三十亿的用户,这是最大的优势。所以,每次有人问OpenAI有没有拿Youtube的数据来训练,他们都避而不谈。。
这一回合中,Nvidia才是最大的赢家,因为竞争越激烈,对GPU的需求也就越强烈。对科技巨头来说,他们必须不断加大投入才能跟得上OpenAI领跑的步伐,或者维持他们在其垄断领域的市场份额,例如Google的搜索。这将使其对数据中心的支出持续不断。因此,他们的利润空间将会被压缩,而Nvidia则会从中获利。
配图1.02:GPTTimeline(SITUATIONALAWARENESS)
“Wecansayrightnow,withahighdegreeofscientificcertainty,GPT-5isgoingtobealotsmarterthanGPT-4”-我可以很有把握地说,GPT-5会比GPT-4聪明得多
-SamAltman
由于文本是由长短不一的字母和单词序列组成的,因此语言模型需要一种能够理解这类数据的神经网络。20世纪80年代发明的递归神经网络(RNN)可以处理单词序列,但其训练速度较慢,而且会遗忘序列中的前一个单词。
大语言模型背后的突破,来自于Google的研究团队在2017年发明了转换器架构(Transformer),这种神经网络可以跟踪每个单词或短语在序列中出现的位置。2018年,OpenAI果断地将转换器模型与无监督学习相结合,推出了GPT,这是一种在未标注的数据上预训练模型的方法,让程序可以自己找出数据中的模式。在此之前的机器学习大多依赖于监督学习和标注数据,但手动标记是一项非常缓慢的工作,因此限制了可用于训练的数据集的大小。
IlyaSutskever领导的OpenAI研究团队很执着的确信,用Transformer可以并行计算的架构和无监督学习的方式,只要增加算力和数据规模就能训练出更好的模型,从而通向通用人工智能(AGI)。经过两年多的迭代,在2020年初用API的方式推出了GPT-3,然后于2022年底通过人类反馈的强化学习的技术(RLHF)优化出了InstructGPT,也就是GPT-3.5,很好地减少了GPT-3产生的错误信息和冒犯性文本的数量。
InstructGPT更善于遵循人类的指示,在AI术语中被称为对齐(Alignment),可以让模型的输出更加安全,错误、幻觉和攻击性语言更少。简而言之,InstructGPT不是一个混蛋,除非它被要求成为一个混蛋。在所有这些成果之上,OpenAI在山姆·奥特曼的推动下,顶着巨大的压力对公众开放了ChatGPT。至此,一个新的智能时代就被开启了!
虽然Transformer架构最早诞生于Google的研究,但在庞大的组织内部,并没有得到特别多的重视。“也许GoogleAIResearch太像一个学术研究机构了,大家更重视想法的涌现和发表论文,但在坚定的采用一种技术方案,将其工程化和产品化上却被忽视了”OpenAI的总裁格雷格·布罗克曼(GregBrockman)在最近一次播客采访中这样描述,这也是伊尔亚的团队能够孤注一掷取得成果的主要原因。
Google不仅是这次智能革命的架构发明人,也是AI人才的黄埔军校。最早《Attentionisallyouneed》论文的撰写人分别创建了Adept和Cohere,OpenAI也吸引了最多的Google研究员加入;在GPT-3之后,负责模型安全的Dario兄妹因价值观不合,自己创立了Anthropic,这是OpenAI组织的第一次硬分叉;就在2024年五月,首席科学家IlyaSutskever和超级对齐的负责人JanLeike也宣布离职,这会是OpenAI的第二次分叉么?
他们会去向哪儿会做什么都还不清楚,但毫无疑问这也是硅谷人才高密度和高流动性的最大特色,技术永远不会被一个垄断的机构限制住,新的想法总能找到适合的土壤发芽,和大自然生态的多样性一样。每一次创新的出现,都离不开硅谷的身影。。
就在GPT-4发布后的一周,Ilya与NvidiaCEO在GTC活动上有一个对谈——“AITodayandVisionofthefuture”。其中Ilya提到,他坚信两件事情,第一就是模型的架构,只要足够深,到了一定的深度就会“BignessistheBetterness”,简单说就是大力出奇迹,算力加数据,越大越好,这也是为什么转换器架构(Transformer)要比他们之前使用的长短时记忆(LSTM)架构要适合扩展;第二就是任何范式都需要一个引擎,这个引擎能够不断被改进和产生价值,如果说内燃机是工业革命范式的动力引擎,现在这个引擎就是Transformer。
毫无疑问,Transformer是这次生成式AI变革的主角,配合算力、生态还有人才自我强化的过程,其架构潜力还有很大的挖掘空间,这也是Ilya还有AnthropicCEODarioAmodei在各自采访中多次强调的看法,领军企业都用脚投票了,从LSTM到Transformer出现花了二十多年,我们还有足够的工程方法让这一架构的潜力再燃烧五到十年。模型与算力的组合,就像内燃机和石油的组合那样,成为了通用平台,你提供能源,我就能输出动力。
大语言模型真的理解世界么?Hinton教授在去年GPT-4刚发布的时候与吴恩达(AndrewNg)的一次连线对话中聊到了这个话题,他们的答案是“能理解”,很显然YanLeCun教授不同意这个观点,2021年一篇来自华盛顿大学计算语言学家EmilyBender的论文将LLMs描述成“随机的鹦鹉”,暗示它们仅通过组合训练过的信息来生成文本,并不理解其意义。
但最新研究似乎证明了Hinton与吴恩达的观点,普林斯顿大学的SanjeevArora和GoogleDeepMind的AnirudhGoyal提出了一种理论-神经网络规模法则(NeuralScalingLaws),当模型规模增大时,模型预测文本并生成正确答案的能力就会提高,即测试损失会减少。这种关系不依赖于任何特定的大语言模型、或训练和测试数据集,而是所有这些系统都遵循的普遍法则。
他们发现,随着大语言模型规模的增加,在单一技能上的熟练度会提高,并且能够同时使用多个技能。这表明模型不仅仅能实现训练数据中领悟到的技能组合,而是能够执行概括和创造性的任务,特别是微软针对GPT-4这个超大规模语言的测试(SparksofAGI-EarlyexperimentswithGPT-4),进一步证明了他们的结论。
配图1.06:AI完成人类智能任务的基准评测对比
Stanford大学HAI小组在AIIndex2024报告中展示了一张AI完成人类任务的基准测试图(OurWorldinData网站还有一份互动版)。截至2023年,AI在大部分任务中的表现已经超越了人类的能力,例如2015年的图像分类、2017年的基础阅读理解、2020年的视觉推理和2021年的自然语言推理。当然在2020年之后,完成这些任务的都是大语言模型了,目前人类只有在复杂的认知任务,例如在深度阅读理解、复杂推理和高级数学问题解决上还有那么一点优势,但估计这个优势在2025年就荡然无存了。。
研究人员目前也只能从数学方法证明规模法则的有效性,并不能解释复杂神经网络背后的秘密。但伊利亚有一个信念:“如果你能够高效地压缩信息,你就已经得到了知识,不然你没法压缩信息”。所以他坚信最新的GPT-4里面已经有了一个世界模型,虽然它们做的事情是预测下一个单词,但它已经表达了世界的信息,而且它还能够持续提高能力!
人类可以边看、边交谈,还能同时听着背景音乐和察觉危险。虽然大语言模型仅靠语言就能理解世界,但大千世界的多样性,只靠语言来描述和理解是远远不够的,因此智能不仅限于单一模态。根据伊利亚之前的观点,多模态理解虽然不是绝对必要,但确实非常有用。比如,你能亲眼看到什么是“红色”,比你用语言去描述什么是“红色”要直观的多,这就是对同一概念的多维度理解。拥有这种能力的模型可以更全面地学习世界,理解人类的行为和需求,提高任务解决能力,并克服单一模态的局限性,是让AI能在现实世界中运行极为重要一环。
配图1.07:多模态解释
2023年九月GPT-4v的发布把大语言模型的竞赛带入了多模态模型(LMM-LargeMultimodalModels)的时代,ChatGPT可以看图说话,还能通过内置的Dall-E3直接画图;几个月后Google的Gemini正式推出,直接就支持了文本、视频和声音多种模态。虽然Gemini模型一开始就是按照LMM方式设计训练的,但每次都能被OpenAI的产品发布捷足先登。。
今年年五月,OpenAI完成了GPT-4的实时听说和视频模态输入的拼图,再一次抢在Google之前的发布了GPT-4o,一款全能模态模型OmniModel。这次OpenAI向智能体方向的研发迈进了一大步,让GPT模型有能力进入现实世界了。
这种随着模型规模以及模态类型的提升,衍生出新的能力的特性,就是大家常说的泛化,也是SamAltman提到的广泛的通用性增强。OpenAI每一次升级模型,就会让很多专用的AI模型和一批小的创业公司所做的事情毫无意义,从最早的翻译和写作工具的替代,到最新GPT-4o多模态实现的语音智能助理。
很明显,训练模型的下一阶段竞争,除了合成文本数据之外,就是对话语音、音频、视频、动作控制与反馈等各种模态数据的竞争了,要让语言模型先进化成智能体,才有机会AGI。。
最后,做为一个普通用户,现在的AI是在帮你提高效率,但最终它们会在很多工作场景来替代你。那么,应该如何理解和应对这个智变时代呢?保持耐心,下文更精彩
“人们总是高估一项科技所带来的短期效益,却又低估它的长期影响。”-阿玛拉定律(AMARA’SLAW)由美国科学家,未来研究所的院长RoyAmara提出。
把时钟回拨到2022年,生成式AI正式进入大众视野还得是文生图的功劳,OpenAI的Dall-E和Midjourney的奇幻效果,还有StableDiffusion开源图像生成模型的各种魔改,记得当时我也是用SD模型来练手学习如何进行图像生成训练的-手动感知GenAI革命
SequoiaCapital在2023年九月发表了一年前那篇引领市场的《GenerativeAI:ACreativeNewWorld》的续篇《GenerativeAI’sActTwo》,里面这样写到:生成式AI的第一年,我们发现了一种新的“锤子”-基础模型,并推出了一波新奇的应用,但这些程序大多是些酷炫新技术的轻量级演示,这些产品远远没有达到预期,糟糕的用户留存率就证明了这一点。
当最终用户过了新鲜体验期,对许多应用的需求开始趋于稳定,真实数据就原形毕露了。。
我在《机器之心的进化》中做过些预测,拥有独特流程和优秀体验的生成式AI应用将胜出。在图像生成领域,Midjourney一直以他独特的流程和品质保持领先,年收入过亿美金,是少数初创公司不靠融资就能实现增长和盈利的;另外2023年的另一个黑马就是AI搜索Perplexity,他们用合理的产品交互解决了问答式AI搜索的难题,去年底的月度活跃就达到了1000万,感觉自己使用Perplexity的频次就比ChatGPT要高。
那么,那些拥有庞大客户群的上一代的软件或服务公司,他们会有巨大的优势,把基础模型整合到自己的业务流程中,提供新界面,使工作流程更具粘性,输出效果更好,例如Adobe,这个创意领域的巨头在2023年丝毫不比创业公司的执行效率低,从Firefly的模型到产品线的升级,让人眼花缭乱,当然这也是他们的生存之战。
配图2.02:TheGenerativeAIMarketMap
其实,这种把模型融入其解决方案,从端到端解决客户需求的创新公司涌现出了很多,附上Sequoia的这张“TheGenerativeAIMarketMap”,就不逐一列举了。这里的核心是,我们如何看待和使用基础模型,而不是简单的封装它们,这些模型就是智能时代操作系统,需要在上面构建原生的应用程序。
配图2.03:LLMOSbyAndrejKarpathy
SPECS:
-LLM:OpenAIGPT-4Turbo256core(batchsize)processor@20Hz(tok/s)
-RAM:128Ktok
配图2.04:EmergingLLMAppStack
配图2.05:GoogleGeminiAgent战略
每一次平台型技术的出现,都会催生出新的人机交互方式,个人电脑时代的鼠标与键盘,移动时代的触摸屏,现在是智能时代,我们一度认为ChatGPT的LUI(自然语言对话式界面)就是这个时代交互的终点,但事实并非如此,知名科幻电影HER中,那种人类与AI全感知无障碍的对话形式,才是我们想要的。
“通过语音、文本和视觉进行推理非常重要,因为我们正在研究与机器交互的未来”,MuriMurati在今年五月十三日那场不到半小时的超快发布会上这样告诉大家。那天OpenAI发布了最新的模型GPT-4o,并且用了个很前卫的新概念,全模态模型-OmnimodaModel。
OpenAI并没有公开GPT-4o的任何技术细节,唯一的线索就是来自他们内部模型炼丹师的一篇博客,项目名是AudioLM,2023年中启动,目标是用端到端的方式扩大语音模型的能力。
很明显OpenAI是有计划的抢先发布,因为Google在第二天的I/O2024大会上准备宣布他们最新的研究项目ProjectAstra,一个类似GPT-4o全模态模型,结果研究团队拿手机精心录制的与环境实时交互的视频,让OpenAI给提前一天全部展示了,而且功能更强大,完成度更高。
配图2.07:GoogleProjectAstra演示
OpenAI会在几个月内陆续更新ChatGPT应用,通过GPT-4o让其具备AssistantAgent能力,一个能够像人类一样互动的“数字形态”全能助理;Google也计划在今年内推出GeminiLive支持类似功能,我们可以把这种能沟通还能感知环境的AI称之为智能体(IntelligentAgent)。除了端到端的多模态之外,另一个重要的特点就是实时性,之前所有的交互都是回合对话式,包括API的调用;现在我们要从文字语音聊天升级到视频直播了,智能体保持一直在线。可以想像,用流媒体的形式来消耗Token,这对算力的开销得有多大,所以大家必须保持模型能力不变的情况下缩小参数规模,升级架构来提升性能;最好让终端也参与进来分担一部分模型的计算量。
让科技变简单,是技术民主化最重要的一个趋势,没有人能抵挡住这种毫无机械感、完全类人化的交互方式。用这样的思路,可以设计从未有过的硬件产品,也能重新设计现有的产品,例如多年以前的GoogleGlass就可以因此而复活了;因为语音交互的流畅,智能体还能用手机之外的设备来实现视觉感知,那么手机的设计也会因此而进化,触摸交互更简单,在很多情况下,都只需要放在口袋里,给你的智能体提供本地算力。
这样的全模态智能体,将会成为我们和所有智能设备的新交互界面。进一步想象,家庭和办公环境的电子设备,只要联网就能成为智能体的感知器,或者直接成为他们的终端,被智能体控制;再结合具身智能(EmbodiedAI)技术,那就是现实版的Ghostintheshell了。。
配图2.08:NewAIWorkforce(来自NFX)
配图2.09:PlaybooksforAIworkforce(来自NFX)
配图2.10:智能代理将改变企业组织架构
杰文斯悖论(JevonsParadox),是经济学WilliamStanleyJevons首次在其1856年出版的《TheCoalQuestion》一书中提出的现象,悖论陈述了当某样东西变得更高效时,人们会消费更多的这种东西。杰文斯观察到,当蒸汽机的效率提高时,使用更少的煤炭就可以做更多的事情,但实际上煤炭的消费量却增加了。人们并不只是用蒸汽机做之前同样的事情,因为成本更低,他们开始用蒸汽机做更多其它的事情。
现代经济学中有一个简单的定义:当商品、服务或资源的供应或容量增加导致其消费增加时,就会发生诱导需求(Induceddemand)。经济学家GeorgeGilder在《KnowledgeandPower》中最核心的观点就是经济增长的主要动力就是企业家的创新,产生供给端需求,俗称创造不存在的市场。在这个科技通缩与数字丰盈的环境中,理解这一点十分重要,虽然它很反直觉。
现在,智能的供应取决于两方面的成本:训练与推理,除非若干年后我们有了全新的训练推理一体的自进化模型架构。OpenAI的推理成本似乎在以每年约86%的速度下降,比训练成本降的更快,最新模型GPT-4o和去年同等智能水平的GPT-4相比,速度提升了五倍,价格下降了接近十倍,这只是在一年之内。
上一章中提到了现在知识工作中的支出是5万亿美元,根据世界银行的数据,2020年全球GDP总额是84.7万亿美元,同年全球劳动力占GDP的比重为53.8%,这是一个45万亿美元的全球市场。如果把智能的触角延展到知识领域之外,需要和人类一样灵巧的机器,就能覆盖这个市场,过去它的瓶颈是智能,但现在我们的突破已经近在咫尺,如果OpenAI或者Google真的能够把智能免费提供,那唯一的限制就是能源了。
再往前推进一步,如果能源被解锁,我们可以从这篇《EnergySuperabundance》中看到人类将如何利用几乎免费的廉价能源,例如飞行汽车、超高速列车、地球次轨道旅行、电动卡车运输网、垂直农业、空气凝结水、海水淡化等各种未来的愿景。我们不仅会使用廉价且丰富的能源来更便宜地做同样的事情,我们还会用它来做更多、更好、更快的事情。过去四十年,全球发达国家在能源消耗几乎没有增加的情况下实现了经济的缓慢增长,那是因为能源基础设施的建设几乎停滞,大家并不需要消耗那么多的电力;但现在因为智能的需求,让能源的需求激增,更加便宜的能源和智能又会诱导新的需求出现,从而再次加速经济增长,扩大整体的经济规模。
配图3.02:1960-2023年美股市值最大的公司
配图3.06:云端与终端的对比(来自CoatueLPReport2024)
配图3.07AppleIntelligence-PrivateCloudComputing
配图3.08:ANEWINDUSTRIALREVOLUTION
配图3.09:李飞飞TED演讲(WithSpatialIntelligence,AIWillUnderstandtheRealWorld)
配图3.10:TeslaOptimus的最新演示
因此需要足够开放的环境、大规模预训练数据和强大的基础模型。就在不久前,Jim在X上放出了一段演示,他们的团队在模拟环境中训练了一只机器狗,在瑜伽球上保持平衡和行走,然后将其转移到现实世界中,没有任何微调,行走的非常流畅。这个过程中团队用了DrEureka,一个LLM代理,它能编写代码在模拟中训练机器人,弥补仿真到现实的差距,完全自动化了从新技能学习到现实世界部署的全流程。
配图3.11:模拟环境中训练了一只机器狗
配图3.12:Coatue的人形机器人价值对比图
十多年前的AlexNet是最好的一次证明,它抛弃了人类的知识逻辑,例如在图片中寻找边缘,或是通用形状,还有通过SIFT特征来理解,只用卷积神经网络和某些类型的不变性的概念,就大幅领先了一同参赛的程序。
配图4.02:AIWorldScope(视频解释)
配图4.03:CV模型进行表征相似度分析
配图4.04:多任务表征空间的收敛
配图4.05:CountingtheOOMs
配图4.06:Anthropic的A.S.L.
配图4.07:不同规模的神经网络预测正弦函数预测
配图4.08:SixLevelsofAGI(Table)
非常期待AGI带来的类似变化
自动化技术提高了以前没法自动化任务的生产力,从而增加了对这些任务的需求。例如,白领在会计、销售、物流、交易和一些管理职位上,部分任务被专门软件和AI所取代,但这些技术也提高了生产力,从而增加了对这些任务的需求;但在制造业中却不同,自动化的加速导致了劳动需求的停滞,但新任务的创造速度在减慢,从而对劳动需求产生了负面影响。研究委婉的表达了制造业在全部制动化之后,就没人类工作者什么事儿了。
配图5.01:1850-2010美国劳动力市场的变迁
最后,如果AI确实抢走了大多数人类的工作机会,那也意味着让部分企业以及某些精英人类赚了更多的钱,政府可以用税收来平衡这个差异,全民基本收入(Universalbasicincome-UBI)就是一个很好的解决方法。
配图5.02:Coatue的AICycleWave(indigo改进版)
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-29
微软发布:工业级Agent落地方案RDAgent
2024-11-03
走进腾讯!探索AI落地的“道、法、术、器”
2024-10-29
对AI大模型应用场景的深入思考(下篇)
2024-10-18
AI视频分析与激光测距技术在工业中的应用
2024-09-10
这些大模型工业应用场景,企业都探过路了
2024-09-09
AI驱动的可观测性:从AIOPS的失败中汲取教训
2024-08-27
“智改数转”之简谈工业大数据+AI应用场景探索
2024-07-29
大模型时代的工业质检:技术革新与实践探讨
2024-05-27
2024-05-22
2024-03-27
2024-07-16
2024-06-19
2024-07-20
2024-06-13
2024-04-12
2024-07-01
2024-06-20
2024-06-21
2024-06-14
广州:广州市华景路37号(华景软件园)暨南大学科技大厦6楼(整层)杨小姐18666627370
深圳:深圳市福田区泰然四路29号天安创新科技广场一期A座1204陈先生18682443374