从特斯拉到毫末智行自动驾驶的进化之路为何都奔向大模型？快科技|大模型+自动驾驶_驾考

特斯拉在2020年宣布将基于深度神经网络的大模型引入其自动驾驶之中，到现在已实现了纯视觉FSDBeta的大规模公测。毫末智行在2021年推出数据智能体系MANA的同时，也宣布要借助大模型提升数据处理能力，从而加速HPilot智能辅助驾驶产品的进化。

小鹏在2022年1024科技日中官宣了重感知路线的XNGP，并同样提出要引入并使用大模型打通XNGP全场景能力的观点。百度Apollo则在最近结束的ApolloDay上介绍了文心大模型，并表示这将是提升器自动驾驶能力的核心驱动力。

事实上，早在自动驾驶企业进入“大模型”阶段之前，后者早就成为了整个AI产学界的技术宠儿，甚至由此出现了各种参数不一、任务导向不同的大模型。

但理论归理论，应用归应用，自动驾驶企业为何纷纷开始转型大模型，大模型又究竟能为自动驾驶企业带来什么，通过以下内容，你或许就能明白一二了。

大模型，成为自动驾驶量变到质变的催化剂

大模型的到来并不是偶然。在大模型到来时，自动驾驶正在经历由封闭场景到开放场景的质变期，而既有的数据处理体系并不能实现这一目的。

具体来看，包括自动驾驶企业在内，此时的AI普遍遵循算法、算力和数据三位一体的研究范式，即以一定的算力和数据为基础，使用开源算法框架训练模型。

在封闭场景中，自动驾驶并不需要应对并输出多么复杂的规控策略，所以此时对数据、算力、算法的要求并不高；但在进入开放场景后，基于对安全性、舒适性、高效性的考量，自动驾驶就必须具备高效获取并处理海量＆多维度数据的能力。

这带来了两个问题。第一个问题是，此时的模型多是基于不同场景及任务制作的，只能针对有限的、单一的数据种类，无法进行多模态大量数据处理；

另一个问题则是，以往单场景规控往往由多个模型组成，其中单个模型仅负责一种规控动作，这种过于明确又独立的分工组合，也无法应对连续的多场景任务。

类似的问题也一度困扰着整个AI产业。例如人脸识别系统虽然能识别真人，但也能被照片糊弄；在线翻译能够准确翻译简单句式，但不能结合语境转换单词词义。

大多数机器学习的性能取决于特征识别和提取的准确程度，而在自动驾驶中，这也就成为了限制其感知能力、进而一步步影响到规控策略的关键。

机器学习的困局，伴随着深度学习的到来出现了转机。虽然属于机器学习范式中的一种，但同样通过数据，深度学习能够从数据中学习更高级的特性：深度学习有着深度更高的神经网络，从数据输入到输出过程中不仅会通过多层神经元，也能通过这种非线性的网络结构，实现更复杂函数的逼近。

简单来说，深度学习就是通过构建具有更多层神经元的机器学习模型，并依靠大数据来学习更有用的特征，从而最终提升分类或预测的准确性。相较机器学习，深度学习不仅可以用无标定数据实现无监督训练，还能与大数据与大算力组合发挥更大性能，可以说是和AI产业的发展方向高度契合。

那么什么样的模型能够发挥深度学习的真正性能？自然是参数量更大的大模型。有研究指出，在一些任务中，模型性能会随着规模的增加而可靠地提高，而在另一些任务中，模型甚至会在某个规模上表现出性能的突然提升，这也被称之为突现能力。

此外，更大参数的模型，还能在提升数据处理能力的同时，带来更强的泛化能力，也就是能够在同时处理多种不同类型的任务，这也就意味着，类似自动驾驶感知这样的多模态融合数据任务不再需要各种小模型进行复杂协同，只需要一个大模型就足够了。

可以看出，大模型的到来对整个AI产业来说，都是堪称从量变到质变的催化剂，包括谷歌、微软在内的科技界巨头都在对大模型的研究中，投入了大量资源；自动驾驶也顺应了这一趋势，尤其在拥有1亿级参数的Transformer大模型脱颖而出后，其在时序特征和图像识别领域的能力很快就被特斯拉、毫末智行等头部自动驾驶企业发现，并迅速投入到了使用。

跳票两年只为“单堆栈”，大模型让特斯拉加速转型

尽管特斯拉在FSD的研发和落地进度上一骑绝尘，但事实上，特斯拉也就是在最近几天才宣布结束FSDBeta的内测状态，正式开启大规模公测阶段。而在此前长达两年的公测跳票，马斯克虽然没有说明原因，但从FSDBeta的更新中，我们依旧能猜得一二，那就是特斯拉在这两年中，经历了一场基于大模型的技术转型。

具体来看，特斯拉从2020年10月宣布开启FSDBeta内测，此时的马斯克还很乐观，认为FSDBeta用不了多久就能进入公测阶段，然而事实是，早期版本的FSDBeta问题百出，经常在包括无保护左转、环岛等场景中陷入死循环。

同年8月，在开启内测前夕，马斯克曾公开表示FSD刚刚经历了一次架构方面的“重写”，至于究竟重写了什么，马斯克只是表示，“神经网络会吸收越来越多的功能”。

而到了一年后，FSDBetaV11更新，里面出现了一个关键词，叫做“单堆栈”。单堆栈的意思就是单一的神经网络，它将会成为FSDBeta的主导；此外还有一段话引人注意，“在高速公路上启用FSDBeta。这统一了高速和非高速路段的视觉和规划堆栈，并取代了已有四年多历史的传统高速堆栈。传统的高速堆栈仅依赖于几个单独工作的摄像头和单帧网络，曾经被设置为处理简单的、专注于车道的操作。”

显而易见的是，这一段内容描述，与基于深度学习的大模型能力非常接近，而在2021TESLAAIDAY上，特斯拉AI高级总监AndrejKarpathy宣布，将引入Transformer进行大规模的无监督学习——这不能说非常巧合，只能说是完全一致了。

大模型的能力，在2021与2022TESLAAIDAY上，得到了非常充分的展示。特斯拉不仅成功将全车8个摄像头获取的感知数据拼接成了一幅具有时序特征的4D向量空间，还在之后引入了占用网络，既实现了事无巨细的高效率标注，又能由此进行实时预测和演练，输出最佳规控策略。

笼统总结，在正式引入大模型之前，特斯拉的高阶辅助驾驶能力既不能对硬件做到高效应用，也不能在软件层面做到打通，另外实现能力也受模型参数限制，导致频繁翻车；而在引入大模型之后，FSD终于打通了全场景的各项能力，其自动驾驶能力也不再是单一功能的简单堆栈，有了大数据与大算力的积累，加上自我学习带来的效率提升，这一场耗时两年的转型虽然成本高昂，但绝对物超所值。

注重数据积累，三年间让毫末实现技术蝶变

就在特斯拉的转型途中，国内这家自动驾驶初创公司毫末智行才成立。但新来驾到的好处是可以站在前人的肩膀上，既能看到好的机会，也能避免一些别人踩过的坑。由于在公司创立之初就确立了数据驱动的发展策略，引入大模型很快就成为了重中之重。

1亿公里的数据集对其它自动驾驶企业来说或许遥不可及，但对毫末智行来说，背后则有着大规模量产车型和真实道路场景数据的支撑；而对于算力问题，车端有小魔盒3.0，云端有智算中心，眼下唯一的问题，就是如何借助大模型快速提升数据处理能力了。

毫末智行对大模型的研究和应用是全方位的。首先在感知层面，毫末智行的第一步，就是借助大模型实现包括摄像头+激光雷达在内众多传感器数据的前融合。对比传统的后融合技术，前融合更考验模型对大数据的并行计算能力，对此Transformer自然手到拈来；第二步则是借助其时序能力，将结果映射到BEV网络上，成为一个连续、可预测的感知世界。

认知层面则聚焦在如何化解长尾难题，这里毫末智行的解法是先通过大数据预训练大模型，再由大模型统一其它各类场景任务模型，经过标注数据集的不断训练，大模型会从中逐渐掌握人类驾驶的经验，而这也将成为其应对各类驾驶场景的统一策略。

在标注与训练层面，除了不断提升自动标注与训练的效率，毫末智行也在提升大模型的自监督学习能力，进一步发挥大数据的优势；此外，庞大的数据集也会影响大模型的训练效率，通过引入增量式学习，毫末智行又能够对大模型的算力资源实现科学分配。

最后则是针对仿真系统的运用，为了更进一步提升训练效率，毫末智行需要让仿真系统在更真实的基础上，实现更高效率的验证和训练，这自然也更需要大模型的参与。

大模型、大数据、大算力，合力驱动质变

总体来说，对于自动驾驶企业，大模型不仅仅是为了提升自动驾驶能力，而是是确确实实代表了整个AI产业的发展未来，由特斯拉、毫末智行、小鹏等自动驾驶玩家的计划当中，都越发看到大模型发挥效果的身影。

除了大模型的大规模应用外，有关如何进一步提升大模型性能，AI产业还在不断投入研发成本，例如超大规模参数的大模型的应用。在未来，大模型的参数不仅会越来越大，类型也将越来越多，以不断满足包括自动驾驶在内整个AI产业的需求，这又将驱动大数据与大算力组成循环发展，相信在这一趋势下，自动驾驶技术也将越发成熟，直到真正实现，为人类的出行方式带来质变式的变革。

THE END

从特斯拉到毫末智行自动驾驶的进化之路为何都奔向大模型？快科技

汽车跑向“AI大模型时代”

Apollo首个自动驾驶大模型来了，距离“汽车无人化”还有多远？车家号发现车生活

大模型与自动驾驶：技术趋势还是未来必要？

大模型+自动驾驶，发展到什么阶段了？

产业互联网周报华为发布鸿蒙4.0，将接入盘古大模型；英伟达被曝挖走小鹏自动驾驶负责人；AMD准备为中国市场“定制芯片”……

公司深度报告：大模型+交通数据要素+自动驾驶新基建的低估龙头宏观研究报告数据中心

自动驾驶之特拉斯FSD解析与激光雷达对应的，特斯拉不用高精地图，不用激光雷达的纯视觉自驾方案FSD，发展迅猛，累积训练里程已经突破10亿英里。...

AI+自动驾驶热火朝天，汽车产业链企业如何快速用上大模型？

大模型「上车」关键一步：全球首个语言+自动驾驶开源数据集来了人工智能

“大模型”是实现自动驾驶的唯一出路！

下一代“多模态大模型+端到端”架构Senna：智驾决策规划全新范式

智能驾驶前沿研究：从特斯拉迭代历程看智能驾驶算法升级趋势

AI大模型研究：大模型对整车智能化将带来颠覆性影响

思必驰联合创始人兼首席科学家俞凯：ChatGPT是继AlphaGo之后最大的里程碑进步财专访股票频道

清华叉院理想提出DriveVLM，视觉大语言模型提升自动驾驶能力澎湃号·湃客澎湃新闻

从特斯拉到毫末智行自动驾驶的进化之路为何都奔向大模型？快科技

41个项目！2023年度“CCF科技成果奖”公布—新闻—科学网