1.2、端到端算法加持,驾驶体验显著提升
2.1、端到端算法将驾驶行为“融会贯通”
端到端自动驾驶算法实现对驾驶行为的“融会贯通”。在传统模块化的自动驾驶算法中,人类工程师依靠自己的经验将驾驶问题拆解和提炼为一些简单的过程,通常情况下自动驾驶算法分为感知、预测、规划控制几个部分,以流水线式的架构进行拼接,模块之间会以人为定义的信息表征方式进行信息传递,进而实现驾驶任务。端到端算法则采用一个整体化的神经网络,在模型的一端输入感知信息,另一端直接输出轨迹或者控制信号,将整个驾驶行为“融会贯通”。
2.2、端到端算法优势显著但落地难度加大
2.2.1、端到端的自动驾驶算法优势显著:
(1)信息无损传递,减少人为偏见,灵活度大幅提升且泛化性增强
模块化算法以人类定义的抽象结果作为中间产物,如感知模块将外部的汽车、行人、道路等元素简化为检测框(Boundingbox)或者占用栅格以及车道线等;而预测和规划模块则根据上游感知提供的信息,将复杂的世界抽象为几类简单的场景,分别输出轨迹点和驾驶路径和行为。这实际上会造成信息损失,当人为定义的抽象的指标并不能很好的描述场景时,下游模块只能根据有限的信息做判断,造成错误的结果,体验上来讲会造成模型对复杂场景的处理能力不足,泛化性差,决策僵硬。端到端算法则可以将各个模块几乎所有信息传递给下游模块,并且由下游模块来决定使用哪些上一环节的信息。例如当经过侧面有障碍物遮挡的小巷子时,如果人类司机观察到障碍物后面有汽车发出的灯光,可能会提前减速。模块化的算法由于感知端只检测障碍物、车道线等内容,可能会丢掉光照变化的信息,规控算法则无法提前规避侧向来车;而对端到端算法来说,全部传感器感知到的数据都会被收集,只要有足够的数据,模型会自己学习到灯光和驾驶员行为的关联进而拟人化的处理相应的问题。
(2)面向整体驾驶目标进行全局优化
(3)从“行为”学习“行为”,驾驶变得更加丝滑和拟人化。
这一优势也可以被视为用基于神经网络的算法取代基于规则为主算法带来的优势。吴新宙在GTC大会上提到,在传统自动驾驶开发过程中,工程师希望定义一些动作,通过建立状态机转换不同的动作来实现驾驶,而为了实现更好的驾驶效果,会引入越来越多的动作让机器的行为尽量像人。但现实情况中,人类的行为难以通过一些离散的动作量化,规则无法定义什么是好的驾驶,甚至有些场景下并无最优决策,好比单纯用文字很难精确的描述一幅画的内容,何小鹏提到无限接近人的自动驾驶系统大概等效于10亿条规则,靠人类根本无法达到,因此传统算法产生的驾驶决策死板单调,拟人性差。端到端或者说基于学习的规划让模型去学习人类行为,会大幅提升算法的适应性和灵活度,据元戎启行在GTC大会上介绍道,元戎的算法由于使用了端到端技术,不仅实现了舒适、高效,还会考虑后车需求,实现了“礼貌”,如主动让出右转车道,地面有水会减速慢行等。
(4)数据驱动,发挥规模法则,性能突破上限
采用端到端的自动驾驶算法,可以采用无监督的算法训练方式,省去标注环节,采用海量数据对模型进行训练,突破性能上限。而模块化算法则只能依靠工程师来手动处理长尾场景,随着数据量的增大,效率逐步下降。
(5)精简计算任务,减少级联误差,降低延迟,计算简洁高效
2.2.2、端到端的自动驾驶算法亦存在可解释性差、落地难度大等问题
首先由于模型被构建为一个整体,无法像传统自动驾驶任务一样将中间结果进行分析,因此可解释性较差。其次由于算法完全依靠数据驱动,对数据的质量、数据分布等要求高,海量数据的获取或生成难度较大。此外仿真验证也是端到端算法开发的难点,端到端算法更需要闭环评估,而在当前的技术条件下,缺乏良好的工具实现这一过程。最后对自动驾驶公司来说,算法的变化也意味着团队的调整,如何保持团队稳定性和量产经验的复用亦存在难点。
2.3、端到端算法形成三大落地形式
多模态基础模型和大语言模型齐头并进,端到端自动驾驶算法百家争鸣。目前在自动驾驶端到端算法领域,大体形成几大方向:将不同功能的神经网络模块拼接形成端到端的自动驾驶算法(显式);依靠多模态基础模型实现端到端自动驾驶算法(隐式);以及依靠多模态大语言模型来实现自动驾驶。
2.3.1、将多个神经网络拼接形成端到端算法(显式端到端):
显式的端到端自动驾驶即将原有的算法模块以神经网络进行替代并连接形成端到端算法。该算法包含可见的算法模块,可以输出中间结果,当进行故障回溯时可以一定程度上进行白盒化调整,训练时首先将每个模块分别训练,再将其拼接进行联合微调和训练,在数据量有限的情况下更容易收敛,且对于算法团队来说可以最大限度的继承此前模块化算法的开发能力,同时又具备端到端算法的优势,是目前诸多量产玩家青睐的方案。获得2023年CVPR最佳论文奖的UniAD模型亦采用此方法,可明显的观察到算法中仍包含感知、预测、占用预测、规划器等模块,并采用向量将模块连接,形成灵活的端到端架构。
2.3.2、多模态基础模型+自动驾驶(隐式端到端):
隐式的端到端算法构建整体化的基础模型,利用海量的传感器接收的外部环境数据,忽略中间过程,直接监督最终控制信号进行训练。这类模型通常采用视觉或者。多模态的信息作为输入,模型直接输出控制或者轨迹信号。诸多玩家探索的自动驾驶世界模型在这里也有应用,即将视频、甚至文字信息送入模型,此后模型可以预测未来发生的事情以及所应该采取的行动,或者可以对所执行操作进行文字解释。该方案理论上限更高,但训练难度高,收敛困难,对数据需求量大且可解释性差,模型调整也较为困难,量产玩家如Wayve以及学术界做出诸多探索
Wayve的端到端自动驾驶网络即采用单一的神经网络,直接输入感知数据,输车辆的驾驶动作,中间没有抽象化的感知结果输出,因此车辆上也不包含通常自动驾驶具备的“SR”(SituationalAwareness,用来呈现自驾算法看到了什么)界面。
2.3.3、大语言模型+自动驾驶:
目前工业界亦不乏大语言模型实践的先行者。端到端的坚定践行者Wayve公司,在2023年推出了LINGO-1,该模型在各类视觉和语言数据源上进行训练,可以对感知、规划、推理等任务进行视觉问答,并可以对驾驶行为作出解释。升级版本的LINGO-1甚至可以对道路语义信息进行分割。
当然,目前算法仍然存在一些问题如模型幻觉仍难以避免,当给定一个看不见的场景,LLM模型仍然会产生无意义或者错误的决策,此外LLM在训练的过程中可能会包含有害的内容。此外大语言模型延迟较高,对计算资源要求较大,不易满足端侧需求。最后大语言模型对3D场景理解度仍然不高,模型是否能够很好的适用于驾驶场景仍然需要不断验证。
算法、数据、算力全面升级推动自动驾驶迈向更强大水准。正如我们学习驾驶一样,好的老师、大量的练习以及基础的“脑力”均不可或缺,对自动驾驶而言,与所有AI应用类似,算力、算法、和数据三要素都必不可少。算力层面,规模法则驱动下,海量的算力成为开发优秀AI算法的基础。数据方面,数据的体量、质量、以及收集方式、处理方式、以及模型的训练和验证体系都考验着开发者的技术和工程能力。算法层面,如何构建一个性能优异且稳定可靠的算法来支撑功能落地,亦尤为关键。
3.1、探求驾驶本质,人类驾驶是“本能反应”和“逻辑思维”的结合
3.1.1、系统一和系统二,人类思考是快慢系统的结合体
3.1.2、世界常识助力解决长尾场景,快慢系统结合为彻底实现自驾提供思路
驾驶是车与道路上其他智能体的“交流”,系统一系统二能力结合为彻底实现自动驾驶提供思路。回到自动驾驶,在有人类驾驶员的情况下,自动驾驶算法只需处理大部分常见场景,极端的长尾问题可由人类兜底。而要彻底实现无人驾驶,或许像人类一样,需要同时具备系统一和系统二能力,模型既需要精通驾驶技能并且能快速反应,同时也需具有世界基础常识,能一定程度理解世界运行的深层次含义,这样才能良好的察觉对象的意图,在面对复杂的场景时通过推理能力解决问题。因此在无人的环境下自动驾驶并非难事,而在城市中,驾驶汽车实际上是通过驾驶行为本身来和其他行人、车辆等“交流”的过程,大语言模型横空出世后其和人类的交流让人们倍感震撼,而“车”与“车”以及其他道路元素之间的“交流”尽管不比大语言模型语言交流的天马行空,但其实难度同样不可小觑。未来,系统一能力和系统二能力结合有望为去掉驾驶员,彻底实现自动驾驶提供解决思路。
3.2、算法:从渐进到终局,大模型和自动驾驶逐步走上相似道路
算法从规则走向神经网络,从模块化走向端到端。自动驾驶诞生以来,伴随着神经网络的进化,自动驾驶算法也几经迭代,从传统的视觉算法转向BEV+Transformer,之后不断演进到端到端。总体而言,从基于规则逐步转向基于神经网络,从小规模、模块化的算法走向基于大规模神经网络,端到端的自动驾驶算法架构。
3.2.1、领先量产玩家小步快跑,采用渐进路线面向端到端逐步迭代
3.2.2、数据驱动迈向认知驱动,大语言模型和端到端有望协同助力智驾
3.2.3、AGI时代殊途同归智能驾驶终将彻底实现
3.3、数据:虚实结合,世界模型加持下如虎添翼
3.3.1、端到端推动自动驾驶从算法工程转变为数据工程
3.3.2、海量车队是富矿,源源不断提供丰富数据
3.3.3、仿真算法持续演进,生成式AI重要性日益凸显
对数据的旺盛需求,推动生成式AI重要性提升。随着自动驾驶走入深水区,玩家对数据的要求日益提升,厂家希望数据能够包含复杂交通流、具有丰富的场景以及各类长尾问题、并且具备3D标注信息。而现实状态下,数据的采集成本居高不下,部分危险的场景如车祸等难以采集,长尾场景稀缺,同时3D标注的成本高昂,因此采用合成数据来助力自动驾驶模型训练测试成为颇具前景的发展方向。
端到端自动驾驶闭环验证难度大,世界模型有望为解决方案。自动驾驶的评测分为两类:开环评估和闭环评估,开环评估中自车的输出不会影响评测环境,闭环评估中环境的变化会受到自车行为的影响,类似“看电影”和“玩游戏”的差异。传统模块化算法架构,可以单独的评估感知和规控算法的效果。其中,感知环节可以依靠开环测试直接对比模型输出结果和真实数据或标注数据的一致性,而规控环节则可依靠某些闭环评测仿真工具如Carla等构建虚拟环境评估模型对驾驶场景的决策处理能力,前者侧重环境的真实性,后者侧重场景和驾驶逻辑的丰富度。而在端到端模型中,驾驶行为被作为一个整体,难以进行开环评估,同时对虚拟环境的逼真程度要求高,模型整体的闭环验证成为难点。而近期出现的世界模型可以直接预测当前驾驶场景的“未来”,或许能够为端到端自动驾驶的闭环验证难题提供解决方案。
3.4、算力:云端算力军备竞赛白热化
4.1、华为:GOD感知网络+PDP预决策规划网络推进端到端
通用障碍物感知网络,端到端的前哨。华为在ADS2.0发布了GOD(GeneralObstacleDetecttion,通用障碍物感知)网络。前端用不同的骨干网络来提取外部环境的特征,这些特征被送入时空神经网络,来构建一个外部世界的3D表达形式,这是完成多模态感知的关键,网络可以输出占用栅格、光流预测、危险区域预测甚至可以输出规划结果,同时网络中也包含有丰富的语义信息。这样的网络可以感知静态和动态的障碍物,也可以预测道路的3D结构,进而帮助车身控制以及ARHUD显式,由于网络中包含了驾驶所需要的所有信息,因此它也可以预测车辆的危险行驶轨迹,甚至可以做端到端的规划。
算力和数据持续进化坐稳本土领军。依托华为云的能力,到2024年6月,华为在自动驾驶领域算力将提升至3.5EFlops,每天训练的数据量超过3000万公里,模型更新速度每5天一次。到2024年底,累计采用华为智驾在路上行驶的车辆将超过50万辆。整体而言华为基于其强大的全产业链布局能力,自底向上,形成了以数学、物理等基础研究为根基,基础算法、操作系统、各类应用及软硬件的强大体系,未来有望在自动驾驶领域持续引领行业。
4.2、元戎启行:领先算法玩家有望率先落地端到端自动驾驶
端到端先行者,有望快速落地量产。元戎启行是国内端到端自动驾驶的先行者,在2023年8月即开启端到端模型的道路测试,预计2024年将有多款搭载端到端模型的量产车型上市。元戎认为,系统是否能够在复杂路段流畅行驶、全场景理解能力及类人化决策、兜底策略是否可靠、天花板等几个方面是端到端的关键,目前元戎可以满足所有上述要求。创始人周光认为,端到端模型拥有极高的上限,同时在初期上车的阶段,还有很多安全兜底策略,例如测试到碰撞可能发生,会启动安全模型让车采取保守的安全策略,随着模型表现越来越好,兜底规则会越来越简化。
4.3、小鹏:自驾领先新势力,发布端到端方案
小鹏汽车采用Xnet、Xbrain、Xplanner配合协同,共同推动端到端算法上车。小鹏汽车在2024年5月20日的发布会上介绍了其技术领域的最新进展,何小鹏在在发布会上提到,较为稳定的传统量产智驾系统,大约有10万条左右各类人工定义的规则,而一个无限接近人类司机的自动驾驶系统,大概等效于10亿条规则,这对于需要快速更新迭代的自动驾驶系统来说是难以承担的。而端到端算法通过让机器学习海量的人类驾驶视频片段,可以把数以百万计的人类驾驶方式放到具有海量参数的自动驾驶模型中。具体而言,小鹏的算法将感知、策略和规控统一在相同的Transformer架构下,保证模型有足够解释性的前提下,提升算法的一体化程度。在感知端,采用升级后的Xnet,类似人的眼睛,感知范围提升,识别目标类型增加;规控端采用Xbrain类似人的大脑,可以识别车辆意图,对待转区、特殊车道、后期甚至可以读取文字信息进而进一步增强对场景的理解;而XPlanner则起到小脑的作用,在控制环节让车辆变得更像老司机,减少前后顿挫、减少违停卡死等弊端。
目前小鹏的端到端大模型可以实现2天迭代一次,智驾能力18个月提升30倍,视频训练超过10亿公里,每天新增里程超过9.78万公里,实车测试超过646万公里,仿真测试里程累计达到2.16亿公里,核心模拟场景超过2.2万,专业模拟场景超过5.8万。
4.5、地平线:本土自驾芯片领军,推动软硬一体化方案落地
地平线推动自驾从可用到好用到爱用。地平线在发布会上深入阐述了对智驾阶段的思考,1.0阶段是技术跑通,保障车辆的物理安全,2.0则是更加拟人化,系统行为要符合用户的心理预期,且满足社会惯例,为用户提供心理安全,安全感,即好用,最后智驾3.0阶段随着用户教育提升达到每程、每刻、每人都用的阶段。
感知和规控分别采用神经网络构筑拟人化的自动驾驶解决方案。感知端地平线采用了基于Transformer的端到端感知网路,将动/静态障碍物感知和占用网络融合,实现更强的检测能力和准确的长尾物体感知能力,以及对鬼探头等场景的识别能力,同时代码行数降低,效率有效提升。在规控端,采用了交互式预决策模型,将自车的决策放入模型,进行反复推演,进而实现更好的他车、自车意图的推理,使得系统做出的行为更加拟人化,最终送入传统的运动规划器做安全兜底,实现信号输出。