下一代“多模态大模型+端到端”架构Senna:智驾决策规划全新范式

端到端自动驾驶在大规模驾驶数据上训练,展现出很强的决策规划能力,但是面对复杂罕见的驾驶场景,依然存在局限性,这是因为端到端模型缺乏常识知识和逻辑思维。而视觉语言多模态大模型(LargeVision-LanguageModels,LVLM),例如GPT-4O,已经展现出极强的视觉理解能力和分析能力,可以很好的与端到端模型互为补充,充当驾驶决策的“大脑”。基于这个思路,我们提出了一种连接视觉语言多模态大模型和端到端模型的智驾系统Senna,针对端到端模型鲁棒性差,泛化性弱问题,行业首创“大模型高维驾驶决策-端到端低维轨迹规划”的新驾驶范式,打造“大模型+端到端”的下一代架构,实现安全,高效,拟人的智能驾驶。经多个数据集上的大量实验证明,Senna具有业界最优的多模态+端到端规划性能,展现出强大的跨场景泛化性和可迁移能力。

Senna解决的研究问题

此前基于大模型的自动驾驶方案,往往将大模型直接作为端到端模型,即直接用大模型预测规划轨迹或者控制信号,但是大模型并不擅长预测精准的数值,因此这种方案并不一定是最优解。此前神经学的研究表明,人脑在做细致决策时,层次化的高维决策模块和低维执行模块组成的系统起到了关键的作用。例如,当想要左转的驾驶员看到红绿灯由红变绿,大脑中首先会思考,现在红绿灯变绿了,因此我可以加速启动通过路口。然后再通过“打转向灯”,“踩油门”等一系列动作完成通过路口这个目标。基于上述观察,Senna主要尝试探索和解决三个问题:

(1)如何有效地结合多模态大模型和端到端自动驾驶模型?

Senna采用解耦的行为决策-轨迹规划思路,多模态大模型在大规模驾驶数据上微调,以提升其对驾驶场景的理解能力,并采用自然语言输出高维决策指令,然后端到端模型基于大模型提供的决策指令,生成具体的规划轨迹。一方面,使用大模型预测语言化的决策指令,可以最大利用其在语言任务上预训练的知识和常识,生成合理的决策,并且避免预测精确数字效果欠佳的缺陷;另一方面,端到端模型更擅长精确的轨迹预测,将高维决策的任务解耦,可以降低端到端模型学习的难度,提升其轨迹规划的精确度。

(2)如何设计一个面向驾驶任务的多模态大模型?

驾驶依赖于准确的空间感知,目前常见的多模态大模型没有针对多图输入进行专门优化,此前针对驾驶任务的大模型或者仅支持前视输入,缺乏完整的空间感知,存在安全隐患;或者支持多图输入,但是并没有进行细致的设计,或针对其有效性进行验证。

为了解决这些问题,我们提出了Senna,Senna包含两个模块,一个驾驶多模态大模型(Senna-VLM)和一个端到端模型(Senna-E2E),相比于通用的多模态大模型,Senna-VLM针对驾驶任务做出如下设计:首先,针对驾驶的大模型需要支持多图从而可以输入环视和多帧的信息,这对于准确的驾驶场景理解和安全非常重要。最初,我们尝试简单基于LLaVA-1.5模型加入环视多图输入,但是效果并不符合预期。在LLaVA中,一张图像需要占用576个token,6张图则需要占用3456个token,这几乎要接近最大输入长度,导致图像信息占用的token数量过多。因此Senna-VLM对图像编码器输出的图像token做进一步特征压缩,并设计了针对环视多图的prompt,使得Senna可以区分不同视角的图像特征并建立空间理解能力。

(3)如何有效地训练面向驾驶任务的多模态大模型?

Senna的关键创新

在模型层面,Senna提出层次化的规划策略,可以充分利用大模型的常识知识和逻辑推理能力,生成准确的决策指令,并通过端到端模型生成具体的轨迹。另外,Senna设计了针对环视和多图的策略,通过图像token压缩和精心设计的环视prompt,有效提高了多模态大模型对驾驶场景的理解。

在数据方面,我们设计了多种可以大规模自动标注的面向规划的驾驶问答数据,包括场景描述、交通参与者行为预测、交通信号识别以及自车决策等。这些问答数据对于Senna生成准确的决策起到了关键作用。

在训练层面,我们提出三阶段的大模型训练策略,不仅提升了Senna在驾驶场景的表现,且有效保留了其常识知识而不至于出现模式坍塌的问题。

Senna的实验及应用效果

基于多个数据集上的大量实验表明Senna实现了state-of-the-art的规划性能。实验结果的亮点在于,通过使用在大规模数据集上预训练的权重并进行微调,Senna实现了显著的性能提升,与没有预训练的模型相比,平均规划误差大幅降低了27.12%,碰撞率降低了33.33%,这些结果验证了Senna提出的结构化的决策规划策略、模型结构设计和训练策略的有效性。Senna强大的跨场景泛化性和可迁移能力,展现出成为下一代通用智驾大模型的潜力。

未来探索方向

Senna初步探索并验证了基于语言化的决策将大模型和端到端模型结合的可行性。下一步,我们将利用更精细的语言决策,并基于决策信息以可控的方式实现个性化的轨迹规划,并在可解释性、闭环验证等方面进一步探索优化。相信Senna将会激发行业在该领域的进一步研究和突破。

THE END
1.新能源时代!看大模型(LLMs)如何助力汽车自动驾驶!本文主要介绍大模型(LLMs)如何助力汽车自动驾驶,简单来说,作者首先带大家了解大模型的工作模式,然后介绍了自动驾驶大模型的3大应用场景,最后指出自动驾驶大模型将会是未来的发展趋势,只要坚持,国内新能源造车新势力还是很有机会的。本文没有深入讲解算法架构,而是化繁为简,能够让您很快的对自动驾驶大模型有个较为全面https://blog.csdn.net/m0_71745484/article/details/141711644
2.大模型+自动驾驶专题:AI大模型在高阶自动驾驶中的应用大模型+自动驾驶专题:AI大模型在高阶自动驾驶中的应用 在自动驾驶技术的发展过程中,AI大模型以其强大的学习能力和处理复杂任务的能力,正逐渐成为推动高阶自动驾驶实现的关键因素。AI大模型在高阶自动驾驶中的应用主要体现在以下几个方面: 感知环境:自动驾驶汽车需要实时感知周围环境,包括车辆、行人、交通标志等。AIhttps://www.sgpjbg.com/task/2725503.html
3.首个自动驾驶领域大模型来了,噱头还是突破?南方+日前,首个自动驾驶领域大模型迎来面世,毫末智行发布自动驾驶生成式大模型“雪湖·海若”,通过引入驾驶数据建立RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化,最终实现端到端自动驾驶。 21世纪经济报道记者了解到,“雪湖·海若”现阶段主要用于解决自动驾驶的认知决策问题。目前,“雪湖·海若”实现了https://static.nfapp.southcn.com/content/202304/18/c7582743.html
4.大模型日新月异,自动驾驶企业“跟得紧才能跑在前”?其中,“1.0”时代以早期无人驾驶车辆为代表,比拼传感器特别是激光雷达的数量和线束精度,数据积累在数百万公里;“2.0”时代以深度学习技术上车为标志,车规级传感器大量上车,但更注意车端感知算法和人工规则为主的决策模型优化,数据积累在千万公里以上;“3.0”时代以AI大模型在自动驾驶领域的应用为标注,以数据驱动方式来http://www.xzrbw.com/info/1221/362508.htm
5.大模型人工智能大模型在自动驾驶领域的应用随着ChatGPT的火爆,大模型受到的关注度越来越高,大模型展现出的能力令人惊叹。 第一个问题:怎样的模型可以称之为大模型呢? 一般来说,我们认为参数量过亿的模型都可以称之为“大模型”。而在自动驾驶领域,大模型主要有两种含义:一种是参数量过亿的模型;另一种是由多个小模型叠加在一起组成的模型,虽然参数量不过https://cloud.tencent.com/developer/article/2345050
6.从奔驰到自行车都在集成的大模型,是汽车智能化的下个风口?2.用于自动驾驶等智能系统。前者如前面说到的奔驰与微软的合作,以及接入通义千问的阿里巴巴AliOS智能汽车操作系统;后者如理想汽车自研的MindGPT,摆脱对高清地图的依赖,让汽车更接近人类司机的驾驶表现,以及毫末智行的自动驾驶生成式大模型DriveGPT,帮助解决认知决策问题,最终实现云端到车端的自动驾驶。此外,长城、奇瑞https://www.iyiou.com/analysis/202308041049665
7.2023年度十大前沿科技趋势发布:这项技术排第一!今年的CVPR最佳论文颁给了端到端自动驾驶,这几乎代表着一种共识:端到端自动驾驶是行业的未来。 随着生成式AI的发展,以ChatGPT为代表的大语言模型的泛化能力有了极大提升,端到端自动驾驶技术也因此受到广泛关注。 端到端自动驾驶技术以全部模块神经网络化为特征,对规则的依赖度低,具备智能涌现能力和跨场景应用潜力。https://wlxy.yangtzeu.edu.cn/sysywlglzx1/info/1027/1466.htm
8.小鹏AI天玑5.4.0全球首发,智驾云端大模型竞争拉开序幕【2024年10月24日,广州】今日,“小鹏P7+AI智驾技术分享会暨首发AI天玑5.4.0先享会”在广州成功举办,小鹏汽车副总裁、自动驾驶负责人李力耘博士、小鹏汽车智能体验负责人于桐,分别介绍了小鹏端到端大模型的技术优势,和首发搭载在小鹏P7+上的AI天玑5.4.0版本。 https://www.xiaopeng.com/news/company_news/5393.html
9.覆盖200+服务嘲,阿里「通义」大模型系列打造国内首个AI统一底座通义- 视觉大模型自下往上分为了底层统一算法架构、中层通用算法和上层产业应用。据了解,通用 - 视觉大模型可以在电商行业实现图像搜索和万物识别等场景应用,并在文生图以及交通和自动驾驶领域发挥作用。 阿里始终秉持开源开放的理念。此次通义大模型系列中语言大模型 AliceMind-PLUG、多模态理解与生成统一模型 AliceMindhttps://developer.aliyun.com/article/1214284
10.人工智能大模型原理与应用实战:利用大模型进行自动驾驶研究自动驾驶技术是人工智能领域的一个重要研究方向,它旨在通过集成计算机视觉、机器学习、路径规划和控制等技术,实现无人驾驶汽车的智能化和自主化。在过去的几年里,自动驾驶技术取得了显著的进展,尤其是在深度学习和大模型方面的研究。这篇文章将介绍如何利用大模型进行自动驾驶研究,包括背景介绍、核心概念与联系、核心算法https://blog.51cto.com/universsky/8997161