自ChatGPT发布以来,AI领域的技术、产品和创业生态几乎在以周为单位迭代。OpenAI作为这次AI热潮的导火索和行业事实的领先者(且可能长期保持),对行业生态有广泛和深远的影响。
本文从OpenAI的AGI愿景出发,首先分析了在该愿景的驱动下OpenAI是如何一步步依据Scale、GenerativeModel两个重要技术判断形成了我们所能观察到的LLM发展路线,并对此技术路线的底层逻辑进行了分析;在对愿景和技术选型分析的基础上,报告将OpenAI的历史行为与此技术路线进行了拟合,尝试解释了许多让人困惑的历史行为,并更进一步对其未来的行为进行了推演;最后报告对基于大模型的生态和产业链的发展给出了自己的分析并提出了一些供大家思考的问题。
这是我们对OpenAI进行全面、系统、深度逆向工程后的产物,提供了一种从底层愿景出发来分析OpenAI历史行为和未来行动预测的独特视角,希望能够对国内正在从事大模型研究、开发、投资的工作者们带来帮助。
一、OpenAI的AGI愿景和对GPT技术路径的坚持
1.1OpenAI的AGI愿景
在开始分析前,我们将OpenAI不同时期对自己AGI目标的描述进行回顾:
“Ourgoalistoadvancedigitalintelligenceinthewaythatismostlikelytobenefithumanityasawhole,unconstrainedbyaneedtogeneratefinancialreturn.”——2015年12月11日《IntroducingOpenAI》
“Ourmissionistoensurethatartificialgeneralintelligence—AIsystemsthataregenerallysmarterthanhumans—benefitsallofhumanity.”——2023年2月14日《PlanningforAGIandbeyond》
第一个变化是增加了对AGI的描述,指明了AGI的智慧程度会高于人类智能。
第二个变化是由不以财务回报为目的改为了普惠人类。
AGI的概念目前并没有已形成共识的精准定义。前者变化是OpenAI基于过去几年的探索给出的判断,其追求AGI的本质没有改变。后者则是OpenAI在更深入的技术探索后,进行了股权结构和商业化策略的调整,背后逻辑后续会详细展开。
总体而言,鉴于OpenAI的历史言论和行动保持高度一致性,我们有理由相信:OpenAI一直并将继续以追求普惠的AGI为第一目标——这个假设是本文后续进行生态推演的基本前提。
1.2OpenAI过去5年展现的外界难以理解的GPT“信仰”
在AGI愿景下,我们看到OpenAI在过去5年坚定地选择了用GPT(GenerativePre-trainningTransformer)架构持续加注LLM(LargeLanguageModel)的技术路径。这个期间OpenAI孤独且惊人的巨大投入,让外部觉得这是信仰的程度。但如果理解了OpenAI的技术选择本质回头看,我们会发现这其实是OpenAI在对技术的深刻洞见下的理性判断。
OpenAI在发展上可大致分为三个阶段:
1.2.1阶段一:AGI实现路径探索(2015年11月~2017年6月)
这个时期的OpenAI走向AGI的技术路径并没有收敛,开展了包括OpenAIGym(Robotics),OpenAIFive(Dota2)和一系列GenerativeModel(生成式模型)的项目探索。
Ilya此期间的所有演讲都强调了Scale的重要性。其实回溯2012年让Ilya等人一战成名的AlexNet,其算法核心本质也是利用GPU的并行计算能力将神经网络Scale。将基础算法规模化的理念贯穿了Ilya近十年的研究。合理推测,正因为对Scale的追求,Ilya和OpenAI才会如此强调RL和GenerativeModel的重要性。
举例来说,同样是在2015年前后打Dota2,AlphaGo选择了结合搜索技术的变形式RL来提高算法表现,而OpenAIFive选择了纯粹的RL上Scale的方法(期间发布的RLAgent在后来也起到了巨大的作用)。
也正是在算法Scale的理念下,OpenAI极度注重算法的工程化和工程的算法思维,搭建了工程算法紧密配合的团队架构和计算基础设施。
在OpenAI2016年6月的发文《GenerativeModel》中分析指出:“OpenAI的一个核心目标是理解世界(物理和虚拟),而GenerativeModel(生成式模型)是达成这个目标的最高可能性路径。”
1.2.2阶段二:技术路径收敛,探索GPT路径工程极限(2017年6月~2022年12月)
2017年Transformer横空出世,Transformer对languagemodel的并行训练更友好,补齐了OpenAI需要的最后一环。自此,OpenAI确立了以GPT架构的LLM为主要方向,逐渐将资源转移至LLM,开启了GPT算法路径的工程极限探索之途。这个阶段OpenAI对于GPT路径的巨额押注在当时外界看来是不可思议的举动。
2018年6月OpenAI发布GPT-1,两个月后Google发布BERT。BERT在下游理解类任务表现惊人,不仅高于GPT-1(117M),且基本导致NLP上游任务研究意义的消失。
在整个NLP领域学者纷纷转向BERT研究时,OpenAI进一步加码并于2019年2月推出GPT-2(1.5B)。GPT-2虽然在生成任务上表现惊艳,但是在理解类任务的表现上仍然全面落后于BERT。
在这样的背景下,OpenAI依然坚持GPT路线并且大幅度加大Scale速度,于2020年5月推出了GPT-3(175B)。GPT-3模型参数175B(百倍于GPT-2),训练数据量500BTokens(50倍于GPT-2)。
GPT-3直接导向了OpenAI股权架构的重构和商业化策略的转型。2019年3月,OpenAI由非盈利组织改组为有限盈利组织(所有股东100x盈利上限)。SamAltman在发文中指出“We’llneedtoinvestbillionsofdollarsinupcomingyearsintolarge-scalecloudcompute,attractingandretainingtalentedpeople,andbuildingAIsupercomputers.Wewanttoincreaseourabilitytoraisecapitalwhilestillservingourmission,andnopre-existinglegalstructureweknowofstrikestherightbalance.OursolutionistocreateOpenAILPasahybridofafor-profitandnonprofit—whichwearecallinga‘capped-profit’company.”由此可见OpenAI此时对于通过GPT探索AGI的技术路径的坚定程度。
商业化上,OpenAI推出了商业化API接口。GPT-3不仅生成式任务表现优越,在理解类任务上已经开始赶超,尤其是few-shot-learning(少样本学习)和zero-shot-learning(零样本学习)的能力引起了大量创业公司的注意。之后两年,基于GPT-3API构建的应用生态持续发展并逐渐繁荣,诞生了一系列明星公司:Jasper(2022年ARR达9000万美金),Repl.it,Copy.ai等。GPT-3发布及生态成型期间(2020-2022),OpenAI一直没有推出下一代模型,而是开始重点研究Alignment问题。
至此,OpenAI的LLM产品均以API的产品形态提供,并主要面向B端、研究人员和个人开发者市场。
1.2.3阶段三:后ChatGPT阶段(2022.12至今)
2022年11月30日,就在行业预期GPT-4即将发布之际,OpenAI突然发布了开发用时不到1个月的对话式产品ChatGPT,引爆了这一轮的AI热潮。据多方消息源称,ChatGPT是OpenAI得知Anthropic即将发布Claude(基于LLM的对话式产品,于2023年3月14日发布EarlyAccess)后临时紧急上线发布的。我们有理由认为,ChatGPT的火爆和随之引发的AI热潮,是在OpenAI预期和规划之外的。
ChatGPT发布引发了一系列连锁反应:
(1)OpenAI可能产生了做C端的野心
C端流量提供的商业化潜力和收集更多非公开数据的能力,对于OpenAI的模型训练、基础研究和生态发展都展现很高的价值。本月发布的ChatGPTPlugin就是典型的C端布局动作。
(2)OpenAI可以通过适度商业化减少对巨额资本投入的依赖
OpenAI的愿景之一是让AGI普惠人类社会,但是AGI研发需要的巨大投入导致OpenAI不得不向科技巨头谋求资本投入——这里的矛盾冲突引来了学界对OpenAI的诟病,并直接或间接导致了其大量人才流失。适度的商业化有机会让OpenAI减少甚至摆脱对科技巨头的依赖。我们推测OpenAI的商业化战略会持续在普惠与可持续独立发展之间找平衡。这里的平衡点判断对后续的产业链分析至关重要。
(3)加强Alignment和安全性的研究投入和动作
LLM能力在C端和B端的迅速渗透也导致了LLM能力被恶意使用的风险及影响迅速扩大,安全问题的紧迫性增加。
同时当前LLM严重的Hallucination(真假难辨的一本正经胡说八道)问题,阻碍了B端的深度应用,也对C端内容环境产生了不良影响。与人类的互动可以减少Hallucination,但不一定是最本质的解决方案。通过Alignment研究,让模型准确且忠实得响应人类诉求,会成为OpenAI下一步研究的重点。
二、OpenAI的技术路径选择(GPT架构的LLM)是基于什么?
首先给结论,经过对大量的访谈、课程、论文和访谈学习,我们大胆推测:OpenAI认为,AGI基础模型本质是实现对最大有效数据集的最大程度无损压缩。
2.1OpenAI认为:AGI的智能≈泛化能力
更通俗地说,泛化就是从已知推到未知的过程。所有深度学习模型进步的基础都是提升模型的泛化能力。
OpenAI认为:AGI智能的本质在于追求更强的泛化能力。泛化能力越强,智能水平越高。
需要特别注意的是,泛化能力不等于泛化效率,下一章节会进一步展开。这也是OpenAI成立之初与业界最大的非共识。
2.2模型泛化能力≈模型泛化效率×训练数据规模
我们认为:如果模型的泛化效率越高,训练数据的规模越大,则模型的智能程度越高。
这一结论可以由严格的数学推导得到,但是由于笔者的数学能力限制了第一性的理解,在请教了专业人士后,给出了以下抽象理解公式:
模型智能程度(泛化能力)≈模型泛化效率×训练数据规模
2.2.1模型泛化效率≈模型压缩效率
对完成某个任务有效方法的最小描述长度代表了对该任务的最大理解。因此一个模型的压缩效率可以近似量化为模型的泛化效率。
在这个理解下,GPT模型参数量越大,模型的智能水平越高。(模型参数量大→模型压缩效率高→模型泛化效率高→模型智能水平高)
(1)GPT模型是对训练数据的无损压缩(数学推论)
(2)GPT模型参数量越大,压缩效率越高(数学推论)
(3)GPT模型是SOTA(state-of-the-art,最好/最先进)的无损文本压缩器(现状)
2.2.2训练数据的规模化和多元化对提高模型泛化能力至关重要
前文中我们提到:AGI的任务是对训练数据集的最大程度泛化。那为什么模型的泛化能力不等于泛化效率呢?
因为模型的泛化效率只追求了“最大程度泛化”,而忽略了“训练数据集”。传统学术界只认为算法的创新才值得追求,训练数据集的Scale只是工程问题,不具备研究价值。因此主流学术界长期追求的目标其实是:模型获得智能的高效方法,而不是模型的智能能力。
而OpenAI则在深刻理解泛化能力的本质后,选择同时追求更大的训练数据集(训练数据集的Scale)和更大程度的泛化(模型参数的Scale)。
希望最快的Scale训练数据集,文本数据自然成了OpenAI的首选。因此过去五年,OpenAI首先做的是在最容易Scale的单一模态文本上,把训练数据规模和模型参数量的极限拉满。LLM只是起点,当文本数据被极限拉满后,我们有理由相信OpenAI会进一步扩大训练数据模态,其中包括可观测数据(特殊文本、图像、视频等)和不可观测数据(与虚拟世界和物理世界的互动数据)。
2.3OpenAI的技术路径选择逻辑总结
前面对于OpenAI技术理念本质的分析非常抽象,我们尝试对技术路径选择逻辑和历史行为进行了整体的梳理总结,如下图:
总结起来,OpenAI认为:AGI基础模型本质是实现对最大有效数据集的最大程度无损压缩。
在这个技术理解下,GPT架构的LLM路线是过去5年的最优技术路径选择,模型参数量和训练数据量的Scale则是必然行为。
2.4OpenAI的技术路径选择争议
报告原文中对OpenAI技术路径的选择提出了一些具有启发性的问题,由于篇幅问题,我们在此仅提出问题,更详细的信息欢迎大家到报告的原文进行进一步阅读并参与讨论。
三、基于OpenAI的技术选择本质,理解OpenAI的过去和未来
3.1拟合:OpenAI的历史行为解释
综合前文所述,OpenAI的愿景是追求普惠的AGI。而OpenAI的技术理念为:AGI智能本质是追求的泛化性,因此AGI基础模型本质是实现对最大有效数据集的最大程度无损压缩。
基于此我们尝试对OpenAI的历史行为进行解释。过程中我们更感受到,SamAltman(商业)+IlyaSutskever(算法)+GregBrockman(工程)组合的稀缺性。OpenAI今天的成果是算法、工程、数据、产品、GTM团队密切配合的结果。
3.1.1技术
(1)为什么Bert在下游理解类任务表现出色(远高于GPT-1和GPT-2)时,OpenAI仍然坚持GPT路线?
如前文分析,OpenAI追求的是模型的泛化能力。所有的有监督学习都是无监督语言模型的一个子集。那么为了特定任务短期效果提升而选择有监督学习无疑是不本质的做法。
早期BERT在理解类子任务上的高表现,是因为对特定数据集通过有监督学习,可以更快速得到对该任务的理解。当GPT等无监督模型的参数足够大且语料足够丰富时,通过无监督语言学习就可以完成其他有监督学习的任务。
因此OpenAI坚持GPT路线就是必然的简单选择。
(2)为什么过去持续Scale,未来还会持续大幅Scale吗?
GPT-1至GPT-3的Scale是在文本模态上的训练数据量和模型参数量的双重Scale。其中
(3)为何将工程能力的建设放到极高的优先级?
在与传统学术界的非共识下,OpenAI很早就意识到了模型Scale的重要性。因此搭建了有工程能力的算法团队(Pretraining组与Alignment组)和有算法理解的工程团队(Scaling组)。并搭建了算法与工程紧密配合的组织架构。工程团队为算法团队做好高拓展性的基础设施,算法团队以工业化的方式设计算法训练。
一些可以窥见其工程能力(工业化的模型生产能力)的事实:
我们认为,OpenAI和目前大部分LLM团队的工程能力可以用工业化模型工厂和模型作坊对比。工程能力的巨大差距会导致大部分LLM公司对SOTA模型追赶的难度进一步拉大。
(4)为什么砍掉Robotics等项目allinLLM?
简单来说,是因为Robotics技术的发展暂时落后于AI导致RL很难Scale。
其实Robotics项目中使用的RL也是符合OpenAI技术审美的算法。并且RL和世界(虚拟与物理世界)的交互以及其中能够学习到的高维表征是OpenAI非常渴望探索的。但是当时受限于Robotics技术本身在发展初期,机器人无法Scale限制了RL算法和数据的Scale。因此OpenAI选择了砍掉Robotics等项目allinLLM。
但我们有理由判断这是一个阶段性选择。当时机成熟,大模型与Robotics或其他能与世界交互的终端结合,在与世界互动中习得更高的AGI智能,是必然会发生的。事实上,OpenAI于2023年3月对人形机器人公司1X进行了约2000万美金的A轮投资。
(5)为什么会有Hallucination问题?
OpenAI追求的AGI智能是最大程度的模型泛化能力。LLM的目的,并不是尝试“拟合”训练集,而是无损地找到训练集所代表的本质规律(概率分布),从而理解训练集以外的数据。因此LLM会生成出训练集之外的内容,造成Hallucination问题。
可以预期的是,随着AGI基础模型能力的逐步提升,Hallucination问题会逐渐减轻。不过在当下,OpenAI会采用预处理和后处理模型等补丁方案,临时减轻Hallucination问题以便让LLM具备更高的可用性和更低的有害性。
同时需要的注意的是,LLM的文本训练语料中本身就存在谬误和价值观冲突,如何为LLM构建“价值判断”也是一个值得深入研究的问题。
3.1.2产品
我们认为OpenAI在产品方向的所有行为都可以被其在产品工作的两个目标及其衍生的两个业务飞轮来进行解释。其中两个核心目标:
根据目标衍生出了两个业务飞轮:
(1)更普惠的AGI产品与“数据-应用”飞轮
此类产品的目标是:围绕AGI模型的能力,搭建能被友好、有效地被C端大众和B端公司使用的产品,以将AGI赋能并普惠人类社会。其中:
ChatGPT
等都是此类产品。C端用户可以通过此类产品提升日常生活的各类任务效率,解决各类问题;而B端用户则能通过此类产品获得AGI模型的能力,帮助自己搭建垂直场景的产品解决方案,并通过“数据-应用”飞轮迭代自己的数据壁垒和产品优势。
(2)收集更多有效数据反哺基础模型与“数据-模型”飞轮
此类产品的目标是:基于OpenAI的模型能力和技术储备,搭建特定产品场景,吸引特定能力或兴趣的用户,通过用户行为反馈积累特定的有效数据,反哺AGI基础模型。这类产品由于所需的数据、能贡献数据的用户群体不同,产品形态和面向的市场各有差异。
(3)两个数据飞轮之间的迁移与博弈
一个关键并且有趣的事实:上述这两个目标及其衍生的业务飞轮事实上存在一些微妙的结构性矛盾,而这正是一些让人困惑的现象和行为背后的底层原因。OpenAI自身产品与其上层生态应用产品会在两个数据飞轮间迁移和博弈。
值得注意的是,“正确理解用户意图,准确选择并使用合适的工具可靠地完成任务”这个场景目前竞争激烈。除了OpenAI外,AdeptAI、InflectionAI以及Meta的Toolformer模型都在竞争此领域的生态位。进一步讨论,如果LLM未来真的成为新一代的人机交互界面,准确性和可靠性是必要条件。
博弈二:深度垂直场景的数据与用户争夺
典型案例如BloomBergGPT。2023年3月30日,BloomBerg发布自研垂直领域GPT模型BloombergGPT,模型参数50B,训练Token700B,其中私有金融数据和公开数据各一半。在私有金融任务上的表现远高于当前的GPT模型。
换言之,如果垂直领域的任务复杂度足够深、数据足够独特且数据量足够大,不拥抱通用LLM生态而自研垂直领域大模型,可能是一个至少短期内合理的博弈。
整体而言,这两个数据飞轮之间的产品迁移和博弈将会持续存在。
3.1.3GTM(Go-To-Market)与商业化
整体而言,我们认为OpenAI的GTM和商业化策略是普惠大众与保持自身独立性间的trade-off,且公司会在权衡中持续摇摆。
(1)从OpenAI到OpenAILP:非盈利向有限盈利的转型
OpenAI在成立之初只有探索普惠AGI的愿景,并没有想清楚技术实现路径,大大低估了需要的资金投入。在OpenAI以非盈利组织运营的2年期间,总融资金额估算只有1000~3000万美元左右。2018年~2019年是OpenAI资金最为困难的阶段。在2017年确认GPT架构的LLM技术路径后,GPT-1与GPT-2的训练烧尽了几乎所有资金。他们不仅无法继续承担下一代模型训练的天价费用,也无法招聘行业优秀人才(实际上已经有研究人才被谷歌挖走)。
在此背景下,非盈利的OpenAI于2019年3月改制为有限盈利的OpenAILP。股权改制后,OpenAI先后接受微软约130亿美金投资。此后,OpenAI不仅可以开出高薪吸引行业顶级人才,承担高昂的AI训练费用,打造超级AI基础设施,还加快了算法探索和产品研发的速度。
然而对于科技巨头的高度依赖,导致OpenAI内部和外部都出现了对其普惠愿景和丧失独立性的质疑,甚至导致了部分核心员工的流失。
我们认为,AGI是个资金密集型行业,OpenAI必须要找到可持续探索AGI的运营模式。获得外部资金支持和自身产品商业化是当前的两条可选路径。自身产品商业化对于OpenAI来说是一个更可控且可以保持自身独立性的模式。因此我们判断,OpenAI会进一步开展商业化进程,但不会以收入或利润最大化为目标。OpenAI最根本的目标还是探索AGI智能的极限。
有限盈利的商业化策略,会使OpenAIGTM和商业化决策不同于传统的科技巨头,进而影响行业生态。
(2)微软与OpenAI的合作蜜月期
自2019年微软首次投资OpenAI以来,双方展开了教科书级别的战略合作。
OpenAI得到了什么:
资金:2019年和2021年两轮投资总计约30亿美元,2023年1月据悉追加了100亿美元投资;
工程Infra的助力:Azure对OpenAI模型的训练和推理投入了专门的团队支持。更重要的是2021-2022年,Azure和Greg带领的Infra团队重构了OpenAI的整个基础设施,得到了稳定性和可拓展性都极高的模型训练Infra(可预测的Scale对OpenAI很重要);
多元优质的特殊数据:GitHub和Bing等特殊的文本数据;
C端心智占领和丰富的通用应用场景:GitHub(7300万开发者用户)、Office套件(1.45亿的日活)、Xbox(XboxLive9000万月活)分别为OpenAI试水LLM应用提供了开发者、通用生产力和营销工具、游戏等优质的通用应用场景,与LLM形成独有的数据飞轮;
B端的客户资源和垂直场景:Azure拥有95%的财富500强企业,有超过25万家公司使用MicrosoftDynamics365和MicrosoftPowerPlatform;
微软得到了什么:
首先要注意的是,Microsoft是营收最多元化的科技巨头,第一大业务Azure营收占比31%,第二大业务Office营收占比24%。而Google、Amazon、Meta、Apple等硅谷大厂的单一主营业务营收占比均超过50%。
现阶段是OpenAI和微软合作的蜜月期。不过值得注意的是,模型厂商和云服务厂商在产业链上的价值分配在未来仍然会产生博弈,微软与OpenAI的蜜月期能持续多久未可知。
(3)ChatGPT意外收获的C端市场,从基础模型层向应用层的扩展
(4)通过投资构建生态和补齐AGI探索需要的技术伙伴
2021年,OpenAI宣布启动一个1亿美元的创业基金,名为OpenAIStartupFund。主要投资标的有以下几类:
应用层公司
初创企业可以在OpenAI公开发布新工具之前先使用新能力,这会让他们在竞争对手前占据优势。OpenAI可以深度获得各类场景的数据或早期反馈。
未来的LLM生态不会只有OpenAI一个模型层玩家,而会有多家模型厂商和大量垂直应用。通过投资的强合作关系可以让OpenAI和它的合作伙伴们的飞轮更大且更快。
芯片、机器人等前沿科技公司
OpenAI在AGI上的探索预计将长期领跑于行业,这会导致OpenAI需要探索更多先进的产品和工具来满足自身的研究需要。如,新架构的芯片服务更大规模更多模态的模型训练,更先进更低成本的机器人让OpenAI未来有机会做与物理世界互动的RL的Scale等。
3.2预测:OpenAI的未来行为推演
3.2.1技术
如前文分析,在OpenAI的技术理解和审美下,数据和参数量的Scale是必然选择,而GenerativeModel和Transformer则是当下的最优选择。基于此,我们大胆对OpenAI接下来的技术行动做一些预测:
(1)进一步增加LLM没见过的有效数据,拥抱多模态
与物理世界的互动数据:通过机器人等与物理世界互动做RL的Scale,这里的进度很大程度取决于机器人技术的发展速度
(2)RL的Scale
(3)Robotics与EmbodiedAGI(具身智能)
(4)寻求能更高效Scale更多模态数据的新算法架构
Transformer仍为当前OpenAI算法架构的最优选。它对于文本模态的Scale很高效,但是对于图像视频等模态很低效。因此GPT-4之后,OpenAI寻求更高效的算法架构的需求变得更紧迫。我们有理由相信OpenAI内部正在做Transformer变体甚至更新的算法架构的模型训练实验。
(5)对于模型的推理和涌现能力的深度理解
现在学术界对于LLM的涌现和推理能力的理解还在早期。我们相信下一个词预测的准确性和推理能力在高维空间必然存在数学联系,但复杂难以研究。技术领域最好的创新其实都来自于对已知的本质理解。对这个领域的深度研究会很有价值。
(6)增加模型的可靠性、可控性和安全性
可靠性:Hallucination问题的弱化;
可控性:准确的理解并执行任务。今天ChatGPT引入了Wolfram,用第三方组件的方式给了过渡方案。未来一定会努力在模型本身增加可控性;
安全性:不作恶以及不被恶人利用。
在这三点上,如何做好Alignment很重要。RLHF(ReinforcementLearningfromHumanFeedback)只是第一步。
3.2.2产品
我们相信在现阶段,OpenAI的产品策略会继续以“进一步提高AGI模型能力”为首要目标,以“让AGI产品被更广泛地合理使用”为次要目标。
(1)为了进一步提高AGI模型能力,OpenAI会设计更多能获得有效数据、进行模型实验、与用户互动迭代的产品
这里的关键是有效数据。之前提到Ilya过去的技术审美喜欢“基础算法规模化”。同样的在数据侧,我们认为OpenAI会优先选择容易Scale的,容易训练的数据。未来OpenAI可能会将产品与模型训练过程结合,将用户行为变成模型训练的一部分。
(2)为了让AGI产品被更广泛地合理使用,OpenAI会更小心的控制模型能力释放给公众的节奏
3.2.3GTM和商业化
(1)GTM策略上,OpenAI会持续捕捉C端的Attention,同时与B端展开更多元的生态合
C端流量同时为OpenAI提供了各类收集数据的有效渠道和变现造血能力,预测OpenAI会持续谋求更大的C端流量、更长的用户停留和更深的用户行为。Attention和心智占领对于C端产品尤为重要。Anthropic的对话产品Claude与ChatGPT能力上不分伯仲,但在C端的认知度和流量都远低于ChatGPT和Bard。
B端则会持续通过与微软的生态全方面合作、创业公司的使用激励、投资等角度,加速“数据-模型”飞轮的转动。
(2)有限商业化
根据前文对OpenAI做普惠AGI的愿景及有限盈利架构的分析,我们认为OpenAI的产品定价会根据普惠和组织可持续发展为纲领制定。具体表现为:
总体而言,OpenAI有限盈利的架构会使其GTM和商业化不同于商业化公司。但作为事实的产业链链主和行业标准,它的GTM和商业化策略会对行业有很大的影响。
四、LLM产业链分析
4.1宏观视角下LLM生态
(1)应用层拿走30%~40%价值
根据A16Z对美国LLM创业调研,纯应用厂商毛利约60%~80%,20%~40%的营收用于推理和模型fine-tuning;
应用厂商当前用户和营收增长迅速,当前已经多厂商ARR达1亿美金;
虽然用户数量和营收都在高速增长,但很多应用厂商都面临用户留存率低、竞争加剧和护城河浅等关键问题;
(2)模型层拿走0%~10%价值
根据GPT-3.5的模型参数量和价格测算,推测OpenAI几乎是以成本或极低的毛利对API定价。且根据对海外竞品LLM公司的访谈,竞品同类能力模型都在做推理成本优化以匹配GPT-3.5的价格(尚未达到);
未来纯模型厂商若模型能力与OpenAI的标准产品同质化,推理价格必然需要长期匹配有限盈利的OpenAI普惠大众的商业化策略。LLM的训练成本又极高,纯模型厂商面临极大的商业化压力;
(3)计算基础设施服务层(计算硬件+云计算)拿走50%~-70%价值
推理上拿到20%~40%的价值;
训练成本极高:以当前的A100价格计算,千亿模型(GPT-3.5)训练成本约2000万人民币;在LLM进入多模态阶段后,预计SOTA的模型训练计算量增长会超过单位计算成本的下降速度,且短期内会有更多模型层玩家进入市场,预计1~3年内LLM的训练市场会增长迅速。
训练侧更多LLM玩家的入场及多模态模型进一步Scale,推理侧LLM在进入爆发式增长起点,云计算和计算硬件市场将加速增长。云计算厂商行业格局可能发生较大变动。
(4)由于当前LLM生态在发展初期,开发者工具的生态位还不稳定,本文暂不展开讨论。
4.1.2未来应用层高速增长且毛利可能改善,模型层竞争加剧,计算基础设施厂商将持续高速增长
需要注意的是,现阶段LLM仍处于大规模研发期,很多LLM新玩家才刚入场。且LLM在应用层的潜力还没有被挖掘,大规模渗透还没有开始,LLM的训练成本未被摊销。因此云计算和硬件厂商成了这一时期的最大玩家。我们认为此时的价值链分布为LLM行业发展早期的状态。行业生态真正成型后的价值链分布将与现阶段大相径庭。
(1)应用层:随着LLM在各类应用场景的潜力被挖掘,应用层将加速增长。同时由于模型层竞争加剧可能导致的价格战,预期应用层毛利会改善。不过同质化的应用同样会导致价格战,这就要求应用层公司将壁垒建立在基础模型能力之外,我们认为能够差异化产品或建立网络效应的应用层公司会真正获得最大的产业链价值。
(2)模型层:OpenAI的定价策略将会成为纯模型API的定价标准。预计OpenAI会坚持普惠大众的有限盈利商业化策略(如:2023年3月ChatGPT降价90%),不具备显著技术优势的LLM公司靠卖模型API盈利预计会很艰难。只有真正掌握全球SOTA模型及成本控制能力的公司才掌握模型定价权。
3)计算基础设施服务层(计算硬件+云计算):训练推理双增长,全行业获得新的增长曲线。新的增长可能也是行业洗牌的机会,如何与LLM配合获得主动权对云计算厂商至关重要。同时要注意一些应用层公司或硬件层公司做新云的可能性。
在盘点了当前LLM生态的宏观格局后,我们放大讨论各个局部,开放式地提出一些值得探讨的话题。但是现在行业处于剧烈变化的阶段,我们基于当前的理解给出一观点,更多的是为了激发大家的讨论。
4.2LLM是否会进入价格战,模型层价格收否终将收敛到云计算的价格?
讨论这个问题前,首先需要提出两个问题:
(1)LLM的价值点到底是什么?是LLM提供的信息获取、理解与推理能力,还是新的人机交互界面的革新?
前者模型的发展目标是进一步提升的复杂推理和高级智能能力。后者模型的当务之急是增加对人类任务的理解力,加强使用工具应用的可靠性和准确性。两者当前的模型发展重点是有细微分岔的。
(2)新入场的LLM公司的自我定位是什么?是探索AI智能极限的AGI公司,还是地域版的OpenAI镜面公司,还是商业化LLM公司?
我们认为现阶段,复刻GPT-3.5和ChatGPT本质是工程问题,复刻GPT-4以后的OpenAISOTA模型需要的则是算法科研能力。而要探索AGI,则需要极强的技术洞见,独立的技术判断(OpenAI不一定是正确答案),真正的AGI信仰和长期有耐心。
不可否认,GPT-3.5和ChatGPT就已经具备充分的商业化潜力了。
但是我们认为从模型能力角度,GPT-3.5和ChatGPT级别的模型能力将在1~2年在各个LLM团队内拉平。如果公司的模型能力停留在这个水平,模型API的价格战不可避免,终将趋向于成本。而真正能独占性地持续迭代出SOTA模型的厂商才能掌握定价权。
另一方面从产品形态角度,API本身不会成为平台,只会成为通道。以AGI模型能力为基础打造具有聚合能力的平台型产品,占据有利的生态位,才可能摘取更多的价值。
4.3路径不同的LLM公司是会分岔还是收敛?
我们认为LLM模型发展发向很有可能是一个“收敛-发散-再收敛”的过程。短期工作有很多会收敛,接下来在垂直领域会分岔,当长期工作有了阶段性成果后会再收敛。
4.4LLM:开源VS闭源?
观察文生图领域,StableDiffusion和MidJourney仍然在拉锯竞争。而LLM领域,LLaMA+LoRA项目遍地开花,人人都可以训练一个大模型。两个生态会如何演化?
我们提供一个分析角度:开源本质是产品研发和GTM的一种方式。社区的活跃程度不能等同于商业价值。对于LLM的研发,开源是否能提供闭源不具备的价值?无论GTM的路径是什么,客户最后买单的是产品价值。开源闭源产品能力或服务体验是闭源产品无法满足的?
4.5计算基础设施层的增量会有多大?是否有新云的机会?
2023年4月5日,ChatGPTPlus停止新的付费注册,据称是因为微软的计算资源不够了。不管消息是否属实,LLM已经并且将持续增加对计算基础设施的需求显而易见,甚至可能导致云计算行业的洗牌。关于AI对于云计算的增量有多大,取决于人类在比特世界的活动会多大程度被AI渗透。这需要对模型能力进行预测及对每个细分场景进行分析,今天暂不详细展开。
英伟达2023年3月的GTC大会发布的四款推理平台中,H100-NVL(2卡,显存94GB*2HBM3)——为什么不是80G(单卡平台的显存)*2?因为放不下GPT-3176B的参数量。同时,英伟达发布DGXCloud产品,企业可以直接租用集群进行各类AI模型训练和fine-tune,消除了部署和搭建基础设施的复杂性,越过了传统云计算厂商。这让我们不禁怀疑,AI带来巨大计算增量是不是让英伟达燃起了做云计算的野心?
另一个角度,真正远超竞争对手模型能力的LLM公司,是否有机会向下延伸,打出一朵新云?正如前文分析,计算基础设施是当前生态中确定性最高的可持续获利且有壁垒的的环节。如果SOTALLM和某家云服务独家绑定,下游客户对SOTALLM的粘性很可能高于云服务商,这里的潜在机会非常值得深入研究。
毋庸置疑的是,无论是新老玩家,与LLM的竞和战略对云计算服务厂商至关重要(就在发文当天,AWS发布AmazonBedrock,正式加入战局)。
4.6下游应用和工具是否有稳定的生存空间
Jasper和Langchain的遭遇引发了创业者的巨大争论:能力快速升级的OpenAI会不会逐步蚕食下游应用和工具的生存空间?
我们认为创业者可以拆成2层看这个问题:
(1)问题1:AGI不停升级的基础模型能力,是否会自然覆盖我的产品核心竞争力?
如果产品的核心竞争力完全是模型能力的浅层封装,公司的生存空间自然不稳定。应用层公司应努力构建自有业务的网络效应或数据积累。以Jasper举例,如果公司能够将核心产品竞争力从单一的“智能化营销内容生产”转为“最智能的All-in-One营销平台”,那与ChatGPT的竞争担心就会大大减弱。当然这就让Jasper面临和Salesforce、Hubspot等传统营销平台的竞争。各个垂直场景新老玩家谁能胜出,也是一个值得展开研究的话题。
(2)问题2:OpenAI为了不断发展AGI,是否希望获得我场景中的数据?
这个问题就回到了两个数据飞轮间的博弈,且不仅仅是技术的博弈。OpenAI会持续希望获得自己模型没有学习过的非同质化有效数据。
Langchain的场景拥有OpenAI希望获得的“开发者通过使用各类工具构建应用,来完成用户任务”的数据,而场景高度依赖GPT生态,自然场景和数据都被OpenAI回收了;
Bloomberg则不然。我们相信拿Bloomberg的数据fine-tuneGPT模型,无论是效果还是成本都会优于BloombergGPT。但Bloomberg掌握了金融的深度场景、量足够大且足够独特的私有数据,便掌握了和OpenAI博弈的能力。当然另一个层面的囚徒困境是:如果你选择不拥抱通用模型生态,是否会输给搭建于大模型之上的竞争对手?
4.7模型层与应用层的价值分配
首先,由于OpenAI实际掌握了LLM模型的行业定价权,基于我们对OpenAI会持续追求普惠AGI愿景和有限盈利架构的判断,我们认为OpenAI不会主观侵占下游应用的利润空间。
那么当底层LLM模型的参数量逐年上升,模型的推理成本会不会让上游应用无法承受?
我们判断不会。因为不同智能含量的场景,需要的模型能力和能承受的模型价格都是不同的。举例来说,写10条小红书的营销文案可能需要月工资5000元的员工1小时,而10条跨国法律合同修改意见则需要小时工资400美元的海外律师1小时。二者对模型成本的敏感性显然差很多。
4.8C端的超级流量入口?平台还是管道(PlatformVSPipeline)?
OpenAI无疑展现了新一代C端流量入口的潜力。然而流量可以成为管道也可以成为平台,二者的商业价值不可同日而语。
同时Google仍然不容小觑,最近Bard将底层模型替换成PaLM后,能力大幅提升。当前Bard和ChatGPT相比,仍然很Nerdy。但是我们预期,以Google的技术深度和各类10亿量级用户的C端产品,它充分具备打造新一代以LLM为基础的新一代C端聚合平台的潜力。
相比之下,Anthropic的Claude被认为具备ChatGPT同等水平的智能,其平台潜力却远没有被激发出来。
并不是所有LLM追随者都能成功复刻GPT模型+ChatGPT+Plugin路径的。正如前文分析OpenAI今天的成就是技术+产品+GTM综合的结果。即使如中国般相对独立的区域市场,也需要真正领先的技术能力与战略能力结合才能成功。
写在最后
以上是OneMoreAI根据原报告整理的压缩版,报告原文中除了对上文提到的信息有更深入和具体的分析外,也留下了很多问题待进一步研究和讨论。
LLM行业还在起步阶段,生态仍未稳定,未来充满了不确定性。我们从逆向工程OpenAI的思路出发,尝试解释并预测行业最关键玩家的行为,希望建立一个能够对LLM生态进行系统性讨论的宏观框架供大家讨论,一起迎接这个历史性的AI浪潮。
Reference:
Improvingalignmentofdialogueagentsviatargetedhumanjudgements