清华叉院理想提出DriveVLM,视觉大语言模型提升自动驾驶能力澎湃号·湃客澎湃新闻

在自动驾驶领域,研究人员也在朝着GPT/Sora等大模型方向进行探索。

与生成式AI相比,自动驾驶也是近期AI最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统,人们面临的主要挑战是AI的场景理解,这会涉及到复杂、不可预测的场景,例如恶劣天气、复杂的道路布局和不可预见的人类行为。

自动驾驶需要从数据驱动迭代到知识驱动,通过训练具备逻辑推理能力的大模型才能真正解决长尾问题,只有这样才能迈向开放世界的L4级能力。随着GPT4、Sora等大模型通过涌现、规模效应展现出强大few-shot/zero-shot能力,人们正在思考一条新路。

最近清华大学交叉信息研究院、理想汽车提交的新论文中,作者提出了DriveVLM,受到最近生成式AI领域兴起的视觉语言模型(VLM)启发,DriveVLM在视觉理解和推理方面表现出了非凡的能力。

在业界,这是第一个提出自动驾驶快慢系统的工作,方法充分结合了主流自动驾驶pipeline和具备逻辑思考的大模型pipeline,并第一个完成端测部署的大模型工作(基于Orin平台)。

DriveVLM包含一个Chain-of-Though(CoT)流程,该流程具有三个关键模块:场景描述、场景分析和分层规划。场景描述模块用语言描述驾驶环境,并识别场景中的关键对象;场景分析模块深入研究关键对象的特征及其对自我车辆的影响;分层规划模块从元动作和决策描述到路径点逐步制定计划。

这些模块分别对应于传统自动驾驶系统流程的感知-预测-规划流程三部分组件,不同之处在于它们处理对象感知、意图级预测和任务级规划,这些在过去是非常具有挑战性的。

虽然VLM在视觉理解方面表现出色,但它们在空间基础和推理方面存在局限性,而且其算力需求对端侧推理速度提出了挑战。因此,作者进一步提出了DriveVLMDual,这是一种结合了DriveVLM和传统系统优点的混合系统。DriveVLM-Dual可选择将DriveVLM与传统3D感知和规划模块(如3D物体探测器、占用网络和运动规划器)集成,使系统能够实现3D接地和高频规划能力。这种双系统设计类似于人脑的慢速和快速思维过程,可以有效地适应驾驶场景中不同的复杂性。

同时,新研究定义了场景理解和规划(SUP)任务,并提出了新的评估指标来评估DriveVLM和DriveVLM-Dual的场景分析和元动作规划能力。此外,作者还进行了全面的数据挖掘和注释管道,为SUP任务构建内部SUP-AD数据集。

经过nuScenes数据集和自有数据集上的大量实验,人们证明了DriveVLM的优越性,尤其是在少量镜头的情况下。此外,DriveVLM-Dual超越了最先进的端到端运动规划方法。

论文《DriveVLM:TheConvergenceofAutonomousDrivingandLargeVision-LanguageModels》

DriveVLM的整体流程如图1所示:

将连续帧视觉图像进行编码,通过特征对齐模块,与LMM进行交互;

对关键障碍物进行分析,通过传统3D检测和VLM理解的障碍物进行匹配,进步确认障碍物的有效性并消除幻觉,描述该场景下的关键障碍物的特征和对我们驾驶的影响;

给出关键的「元决策」,如减速、停车、左右转等,在根据元决策给出驾驶策略描述,并最终给出主车未来的驾驶轨迹。

图1.DriveVLM和DriveVLM-Dual模型管道。一系列图像由大视觉语言模型(VLM)处理,以执行特殊的思想链(CoT)推理,从而得出驾驶规划结果。大型VLM涉及视觉变换器编码器和大语言模型(LLM)。视觉编码器产生图像标记;然后基于注意力的提取器将这些标记与LLM对齐;最后,LLM进行CoT推理。CoT过程可以分为三个模块:场景描述、场景分析和层次规划。

DriveVLM-Dual是一种混合系统,利用DriveVLM对环境的综合理解和决策轨迹的建议,提升了传统自动驾驶Pipeline的决策和规划能力。它将3D感知结果合并为语言提示,以增强3D场景理解能力,并通过实时运动规划器进一步细化轨迹路点。

尽管VLM擅长识别长尾物体和理解复杂场景,但它们经常难以精确理解物体的空间位置和详细运动状态,这一不足构成了重大挑战。更糟糕的是,VLM巨大的模型体量导致高延迟,阻碍了自动驾驶的实时响应能力。为了应对这些挑战,作者提出了DriveVLM-Dual,让DriveVLM和传统自动驾驶系统进行合作。这种新方法涉及两个关键策略:结合3D感知进行关键对象分析,给出高维驾驶决策信息,以及高频轨迹细化。

另外,为了充分发挥DriveVLM和DriveVLMDual在处理复杂和长尾驾驶场景方面的潜力,研究人员正式定义了一项名为场景理解规划的任务,以及一组评估指标。此外,作者提出了一种数据挖掘和注释协议来管理场景理解和规划数据集。

为了充分训练模型,作者全新开发了套DriveLLM的标注工具和标注方案,通过自动化挖掘、感知算法预刷、GPT-4大模型总结和人工标注等多种方式相结合,形成了目前这套高效的标注方案,每个Clip数据都包含了多达数十种标注内容。

图2.SUP-AD数据集的带注释样本。

作者还提出了一个全面的数据挖掘和注释管道,如图3所示,为所提出的任务构建场景理解规划(SUP-AD,SceneUnderstandingforPlanninginAutonomousDriving)数据集,包含100k+图像和1000k+图文对。具体来说,作者首先从大型数据库中进行长尾对象挖掘和具有挑战性的场景挖掘来收集样本,然后从每个样本中选择一个关键帧并进一步进行场景注释。

图3.用于构建场景理解和规划数据集的数据挖掘和注释管道(上图)。从数据集中随机采样的场景示例(如下)展示了数据集的多样性和复杂性。

SUP-AD分为训练、验证和测试部分,比例为7.5:1:1.5。作者在训练分割上训练模型,并使用新提出的场景描述和元动作指标来评估验证/测试分割上的模型性能。

nuScenes数据集是一个大规模的城市场景驾驶数据集,有1000个场景,每个场景持续约20秒。关键帧在整个数据集上以2Hz的频率均匀注释。在这里,作者采用位移误差(DE)和碰撞率(CR)作为指标来评估模型在验证分割上的性能。

作者展示了DriveVLM与几种大型视觉语言模型的性能,并将它们与GPT-4V进行比较,如表1所示。DriveVLM利用Qwen-VL作为其骨干,其实现了与其他开源VLM相比的最佳性能,具有应答和灵活交互的特点。其中前两个大模型已开源,使用了同样的数据进进了微调训练,GPT-4V使用了复杂的Prompt进行Prompt工程。

表1.在SUP-AD数据集上的测试集结果。这里使用了GPT-4V的官方API,对于Lynx和CogVLM,利用训练分割来进行微调。

如表2所示,DriveVLM-Dual与VAD配合时,在nuScenes规划任务上取得了最先进的性能。这表明新方法虽然是为理解复杂场景而定制的,但在普通场景中也表现出色。请注意,DriveVLM-Dual比UniAD有了显著提升:平均规划位移误差降低了0.64米,碰撞率降低了51%。

表2.nuScenes验证数据集的规划结果。DriveVLM-Dual实现了最佳性能。表示使用Uni-AD的感知和占用预测结果。表示与VAD合作,所有模型都以自我状态作为输入。

图4.DriveVLM的定性结果。橙色曲线代表模型在接下来3秒内计划的未来轨迹。

DriveVLM的定性结果如图4所示。在图4a中,DriveVLM准确预测当前场景条件,并结合有关接近我们的骑车人的有思考的规划决策。DriveVLM还有效地理解了前方交警手势,向自我车辆发出继续前进的信号,并且还考虑了右侧骑三轮车的人,从而做出正确的驾驶决策。这些定性结果证明了DriveVLM模型具有理解复杂场景并制定合适驾驶计划的卓越能力。

图7:SUP-AD数据集中的各种驾驶场景。

图9.SUP-AD数据集中牛群和羊群的示例。一群牛在本车前方缓慢移动,要求策略推理出本车缓慢行驶并与牛保持安全距离。

图16.DriveVLM输出的可视化。DriveVLM可以精确检测倒下的树木及其位置,随后规划合适的绕行轨迹。

THE END
1.新能源时代!看大模型(LLMs)如何助力汽车自动驾驶!本文主要介绍大模型(LLMs)如何助力汽车自动驾驶,简单来说,作者首先带大家了解大模型的工作模式,然后介绍了自动驾驶大模型的3大应用场景,最后指出自动驾驶大模型将会是未来的发展趋势,只要坚持,国内新能源造车新势力还是很有机会的。本文没有深入讲解算法架构,而是化繁为简,能够让您很快的对自动驾驶大模型有个较为全面https://blog.csdn.net/m0_71745484/article/details/141711644
2.大模型+自动驾驶专题:AI大模型在高阶自动驾驶中的应用大模型+自动驾驶专题:AI大模型在高阶自动驾驶中的应用 在自动驾驶技术的发展过程中,AI大模型以其强大的学习能力和处理复杂任务的能力,正逐渐成为推动高阶自动驾驶实现的关键因素。AI大模型在高阶自动驾驶中的应用主要体现在以下几个方面: 感知环境:自动驾驶汽车需要实时感知周围环境,包括车辆、行人、交通标志等。AIhttps://www.sgpjbg.com/task/2725503.html
3.首个自动驾驶领域大模型来了,噱头还是突破?南方+日前,首个自动驾驶领域大模型迎来面世,毫末智行发布自动驾驶生成式大模型“雪湖·海若”,通过引入驾驶数据建立RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化,最终实现端到端自动驾驶。 21世纪经济报道记者了解到,“雪湖·海若”现阶段主要用于解决自动驾驶的认知决策问题。目前,“雪湖·海若”实现了https://static.nfapp.southcn.com/content/202304/18/c7582743.html
4.大模型日新月异,自动驾驶企业“跟得紧才能跑在前”?其中,“1.0”时代以早期无人驾驶车辆为代表,比拼传感器特别是激光雷达的数量和线束精度,数据积累在数百万公里;“2.0”时代以深度学习技术上车为标志,车规级传感器大量上车,但更注意车端感知算法和人工规则为主的决策模型优化,数据积累在千万公里以上;“3.0”时代以AI大模型在自动驾驶领域的应用为标注,以数据驱动方式来http://www.xzrbw.com/info/1221/362508.htm
5.大模型人工智能大模型在自动驾驶领域的应用随着ChatGPT的火爆,大模型受到的关注度越来越高,大模型展现出的能力令人惊叹。 第一个问题:怎样的模型可以称之为大模型呢? 一般来说,我们认为参数量过亿的模型都可以称之为“大模型”。而在自动驾驶领域,大模型主要有两种含义:一种是参数量过亿的模型;另一种是由多个小模型叠加在一起组成的模型,虽然参数量不过https://cloud.tencent.com/developer/article/2345050
6.从奔驰到自行车都在集成的大模型,是汽车智能化的下个风口?2.用于自动驾驶等智能系统。前者如前面说到的奔驰与微软的合作,以及接入通义千问的阿里巴巴AliOS智能汽车操作系统;后者如理想汽车自研的MindGPT,摆脱对高清地图的依赖,让汽车更接近人类司机的驾驶表现,以及毫末智行的自动驾驶生成式大模型DriveGPT,帮助解决认知决策问题,最终实现云端到车端的自动驾驶。此外,长城、奇瑞https://www.iyiou.com/analysis/202308041049665
7.2023年度十大前沿科技趋势发布:这项技术排第一!今年的CVPR最佳论文颁给了端到端自动驾驶,这几乎代表着一种共识:端到端自动驾驶是行业的未来。 随着生成式AI的发展,以ChatGPT为代表的大语言模型的泛化能力有了极大提升,端到端自动驾驶技术也因此受到广泛关注。 端到端自动驾驶技术以全部模块神经网络化为特征,对规则的依赖度低,具备智能涌现能力和跨场景应用潜力。https://wlxy.yangtzeu.edu.cn/sysywlglzx1/info/1027/1466.htm
8.小鹏AI天玑5.4.0全球首发,智驾云端大模型竞争拉开序幕【2024年10月24日,广州】今日,“小鹏P7+AI智驾技术分享会暨首发AI天玑5.4.0先享会”在广州成功举办,小鹏汽车副总裁、自动驾驶负责人李力耘博士、小鹏汽车智能体验负责人于桐,分别介绍了小鹏端到端大模型的技术优势,和首发搭载在小鹏P7+上的AI天玑5.4.0版本。 https://www.xiaopeng.com/news/company_news/5393.html
9.覆盖200+服务嘲,阿里「通义」大模型系列打造国内首个AI统一底座通义- 视觉大模型自下往上分为了底层统一算法架构、中层通用算法和上层产业应用。据了解,通用 - 视觉大模型可以在电商行业实现图像搜索和万物识别等场景应用,并在文生图以及交通和自动驾驶领域发挥作用。 阿里始终秉持开源开放的理念。此次通义大模型系列中语言大模型 AliceMind-PLUG、多模态理解与生成统一模型 AliceMindhttps://developer.aliyun.com/article/1214284
10.人工智能大模型原理与应用实战:利用大模型进行自动驾驶研究自动驾驶技术是人工智能领域的一个重要研究方向,它旨在通过集成计算机视觉、机器学习、路径规划和控制等技术,实现无人驾驶汽车的智能化和自主化。在过去的几年里,自动驾驶技术取得了显著的进展,尤其是在深度学习和大模型方面的研究。这篇文章将介绍如何利用大模型进行自动驾驶研究,包括背景介绍、核心概念与联系、核心算法https://blog.51cto.com/universsky/8997161