业界专家一致认为,常规的端到端方案最终只能实现L3级自动驾驶,生成式AI大模型才能实现L4。
那么,大模型技术真正在车端落地,需要突破多少难关呢?
01
对大佬们的话做阅读理解,一定要结合他发言的上下文,否则很容易断章取义。
比方说,特斯拉前自动驾驶部门负责人AndrejKarpathy曾经说过,大模型的幻觉是特点,不是缺陷,大语言模型的工作机制就是做梦,幻觉是正常现象。
从助力科学发现的角度来看,大模型的幻觉问题的确不是缺陷。
但是,对于汽车驾驶这种高安全要求、约束边界非常明显的场景而言,幻觉问题是必须解决的一道难关。
定量来看,当下大模型的错误率和L4级自动驾驶能容忍的错误率到底有多大的差距呢?
华为在《云计算2030》中表示,L3级自动驾驶的容错率为0.1-1%,L4级自动驾驶容错率在0.0001-0.001%之间。
随着参数量的加大、训练数据规模的提升和新方法的引入,大模型的准确率一直在稳步提升。
2020年问世的GPT3错误率在40%左右,到了2022年底,GPT3.5的错误率已经下降到了20%,GPT4更是百尺竿头、更进一步,将错误率降低到了10%。
不过,饶是如此,10%和L4级自动驾驶的容错率0.0001%依然差着5个数量级。
理想的视觉语言模型DriveVLM基于阿里巴巴的Qwen-VL或Meta的LLaMA2-3B改造而来。
即便在它们的基础上新增训练了一些驾驶场景数据,做了RAG检索增强、AI对齐、强化学习、优化提示词等工作,准确率的提升也相当有限。
幻觉问题的解决任重而道远。
我们无从揣测李彦宏是不是出现了幻觉,但他这个观点非常值得商榷。
在绝大多数情况下,文字只不过是无关痛痒的表达,操纵钢铁巨兽的自动驾驶系统面对的却是可以直接决定他人性命,务必要慎之再慎!
02
交通场景瞬息万变,自动驾驶系统必须及时感知车辆周围环境、实时预判周围交通参与者的潜在轨迹,经过整体的统筹,即时规划出安全、舒适、高效的行驶路径。
要保证复杂车流环境下的实时性,模型的运行频率至少要在十几赫兹。
目前,理想汽车视觉语言模型的运行频率在3.3赫兹左右,只能起到辅助提醒的作用,无法参与实时的轨迹规划。
现在坊间有一个简单粗暴的观点,理想汽车如果在下一代智驾系统中将Orin升级为英伟达下一代舱驾一体芯片Thor。
NPU从254TOPS提升到1000TOPS。再加上Thor对Transformer架构的原生支持,应该有望将DriveVLM的运行频率提高到十几赫兹。
这个看法相当门外汉。天上云追月,地下风吹柳,更高等级的自动驾驶对模型的参数量必然有着更高的需求。
目前,理想汽车用来实现L3级自动驾驶的视觉语言模型的参数量只有22亿参数,这种参数规模的大模型无法实现L4级自动驾驶。
可以拿特斯拉FSD的模型参数量做个对比。
2022年的AIDay上,特斯拉披露了其分模块方案FSD的参数规模为10亿(1B),进化到端到端方案之后,FSD模型的参数量必然有增无减。
特斯拉曾经表示过,从V12.4到V12.5,FSD模型参数量提高了5倍,从V12.5到志在实现L4级自动驾驶的V13,模型参数量再次提高了3倍。
做一个合理的推算,FSD当前的模型参数量恐怕得在200亿左右,比DriveVLM的22亿参数量高了整整1个数量级。
这就意味着,除非降低对自动驾驶能力等级的需求,即将量产的智能驾驶芯片标杆英伟达雷神芯片也无法解决车端运行大模型的实时性难题。
03
万丈高楼平地起,那是因为有地基。
进入2024年下半年,本土智驾企业纷纷开启在车端自动驾驶大模型上的实践,并非因为他们自己水平有多么强悍,而是因为头部AI企业训练出并开源了具备图像理解能力的多模态大模型。
智驾企业们在这些涵盖多个不同科目和子领域、具备通用多模态能力的视觉模型/视觉语言模型/视觉语言动作模型的基础上,再设计一些面向驾驶场景的问答,进行简单的微调训练,自家的视觉语言智驾大模型就顺利出炉了。
这些万亿美金市值的AI巨头提供了免费的午餐,也顺带着决定了基于它们改造而来的智驾视觉语言模型的性能天花板。
这些大模型也具备一定的场景理解能力,比如判断路面的坑洼情况,给出减速建议。
当然,如果自家的车型具备真正的魔毯能力,或许只需要适时调节空悬和CDC就可以了。
再说悲观的一面,这些面向数字世界的AI大模型并不具备真正的空间理解能力。
建立空间理解能力的关键在于可以同时输入车前、车后、左前、右前、左后、右后的多个摄像头的图像输入,站在3D视角下进行综合的判断,BEV前融合的价值就在这里。
反观视觉语言模型,虽然可以依次输入前视、后视、周视摄像头采集到的图像,但它只能像BEV出现之前的自动驾驶算法那样做后融合,直接杜绝了建立精准的空间理解能力的可能。
目前的智驾视觉语言模型只能给出车道、加减速这些中间层的建议,而无法输出最终的轨迹,本质原因就在这里,特斯拉和蔚来汽车死磕具备空间理解能力的世界模型的本质原因也在这里。
生成式AI爆发之后,业界对自动驾驶能力的进展速度一度变得非常乐观,但是,从以上分析可以看出,通过生成式AI大模型提升自动驾驶能力,这条路依然任重道远!
NE时代
日前,在理想汽车的2024智能驾驶夏季发布会上,理想提到其自动驾驶技术采用双系统,即系统1为端到端,系统2为VLM大模型。
根据理想方面的表述,理想的自动驾驶技术中系统1只能帮完成95%左右的这种驾驶场景,那么还有5%比较复杂的场景,需要用系统2来进行理解和判断。
“NE时代智能车”将分三篇介绍,2024理想夏季发布会的自动驾驶技术,这是第二篇。
01.
VLM模型架构
VLM(视觉语言模型)与大语言模型不同,VLM模型有视觉和语言两个部分,还有两者对齐的部分,大语言模型只有语言部分。
来看下VLM模型架构。
最核心的部分是一个统一的transformer解码器,然后这里面的参数量是非常大。整个流程就是,将文本的prompt(提示词)进行Tokenizer(分词器)编码,然后输给这个解码器,然后同时把30度相机、120度相机的图片以及导航地图的图像进行视觉编码,送给这个模态对齐模块,然后将对齐后的信息也交给解码器。最后一起自回归的输出想要的信息。
系统2的输出包含对环境的理解、驾驶决策建议,甚至是驾驶的参观轨迹,这些都是可以给到系统1帮助辅助驾驶策略。
02.
VLM三大亮点设计
根据理想方面的介绍,VLM架构设计里面还有三大亮点。
一是,视觉编码器这部分是一个流式的视频编码器。相比于大部分传统的单帧VLM来说,流式的视频编码的优势在于,可以缓存更长的视觉时序,相当于长时序信息,这对于这个物理世界中的AI系统来说非常重要。根据理想方面介绍,这也是比较创新的一个架构。
二是,右下角设计了一个memorybank(记忆模块)模块,这里相当于是缓存了上帧甚至上上帧等多帧历史信息,这样拼成历史信息就更好的来执行超长时序的推理问题,解决超长时序的推理时延。
第三个特点,架构中有个自动驾驶系统的Prompt问题库。系统2时时刻刻都在看这个周围环境,给系统1做出一些辅助驾驶决策,同时系统1还可以主动向系统2问问题,然后根据prompt库里的问题,然后帮助系统1以解决部分场景。
例如,导航有时候也不知道自己在高架桥上还是桥下的时候,系统1可以询问系统2,来帮助系统1做出辅助判断。可以将系统2类比为驾校的“教练”,这个“教练”一直在监督你的行为,当你开错道或者需要需要帮助的时候,他也会主动提供一些建议给你。
当然要做好这个教练需要丰富的知识,在大模型中就体现为参数量。根据理想方面透露,目前VLM模型的参数量达到了22亿。
03.
部署到Orin-X需要解决的问题
22亿参数的大模型要部署到车端芯片并不是一件容易的事。
Orin-X本身就不是为Transformer设计的,内存带宽也不够,因此将大模型部署在上面是个极大的挑战。
趣味科技
一旦端到端大规模落地,那我们离真正的车坐不开的自动驾驶时代,可能就真的不远了。这场端到端自动驾驶技术的盛宴,大家可千万不能错过!
公路时刻
同时,理想汽车发布了基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构,并开启新架构的早鸟计划。这也意味着,理想汽车的智驾能力将进一步提升,可以预见,其对各种用车场景的覆盖能力也会有所进阶。
无图NOA四项能力提升,走遍全国都不慌
无图NOA的能力意味着什么,相信很多人都知道。简单来说,它决定了用户是否能够在全国各路段畅行无忧。理想汽车将在7月内推送的无图NOA带来四项重大能力升级,到时候,无图NOA不再依赖高精地图或先验信息,在全国范围内的导航覆盖区域均可使用,并借助时空联合规划能力带来更丝滑的绕行体验。无图NOA也具备超远视距导航选路能力,在复杂路口依然可以顺畅通行。同时,无图NOA充分考虑用户心理安全边界,用分米级微操带来默契安心的智驾体验。
也就是说,不管是在陌生城市,还是在胡同窄路和乡村小路,理想汽车的无图NOA都能覆盖到位。而且,在面对障碍物时,无图NOA还可以基于平时对优质样本的学习,快速筛选最优轨迹,果断而安全地执行绕行动作。遇到复杂路口,不规则障碍物等情况时,无图NOA更是可以利用强大的感知能力,更精准的进行判断,有效提升用户行车时的安全感。可以说,从场景到用户追求安心出行的心理,无图NOA都进行了全面的考量。
主动安全能力进阶,覆盖更多出行场景
当然,要想车辆能够覆盖更多的出行场景,主动安全能力十分关键。在主动安全领域,理想汽车建立了完备的安全风险场景库,并根据出现频次和危险程度分类,持续提升风险场景覆盖度,即将在7月内为用户推送全自动AES和全方位低速AEB功能。要知道,这两项功能可是决定了日常出行,车辆是否能够敏锐规避风险的关键所在。或许有人会觉得疑惑,正常AEB就已经可以紧急制动了,为什么还要有AES功能呢?
全方位低速AEB还针对泊车和低速行车场景,提供了360度的主动安全防护。它可以有效识别前向、后向和侧向的碰撞风险,及时紧急制动,即便是在复杂的地库停车环境中,也不怕和车辆周围的立柱、行人和其他车辆等障碍物剐蹭。
自动驾驶技术突破创新,智驾能力更上一层
决定车辆智驾水平高低的,有时候往往是“思路”。理想汽车的自动驾驶全新技术架构受诺贝尔奖得主丹尼尔·卡尼曼的快慢系统理论启发,在自动驾驶领域模拟人类的思考和决策过程,形成更智能、更拟人的驾驶解决方案。用系统1去处理95%的常规场景,用系统2去解决复杂甚至未知的另外5%的交通场景,可以更好的确保大部分场景下的高效率和少数场景下的高上限。这种创新的智驾解决方案,对于用户出行安全,无疑会是一个大突破。
为了让这样的解决方案具备足够的可行性,理想汽车做了非常多的技术铺垫。其以高效率的端到端模型去解码动态障碍物、道路结构和通用障碍物,并规划出行车轨迹。展现出了更强大的通用障碍物理解能力、超视距导航能力、道路结构理解能力,以及更拟人的路径规划能力。
另外,高上限的VLM视觉语言模型则对物理世界的复杂交通环境具有强大的理解能力,即使面对首次经历的未知场景也能自如应对。再加上重建生成结合的世界模型,可以为自动驾驶系统能力的学习和测试创造更优秀的虚拟环境,使系统具备高效闭环的迭代能力,确保系统的安全可靠。
结语
无图NOA四项能力提升,主动安全能力进阶,自动驾驶技术突破创新,该说不说,理想汽车2024智能驾驶夏季发布会算得上是干货满满。如果这些方面的实际表现,都和此次发布会的预告保持一致,相信,用户的出行品质会有进一步的提升,而理想汽车在新能源汽车竞争的下半场中,也会有更不一样的优势。
智能车参考
然后将合并为一个模型,能力更强,下一代自动驾驶目前已开启了早鸟计划,部分用户可抢先体验。
具体原理是什么样的?
理想即将推送的无图NOA,目前是将感知和规划模块,各自整合为了一个模型。
下一步会将两个模型合二为一,保留一个模型,输入导航信息和传感器信号,输出轨迹,作为“系统1”。
所谓“系统1”,其实此前李想就在重庆论坛上透露过了,是理想下一代自动驾驶系统的一部分。
玩车赏智
2024年7月5日,理想汽车在2024智能驾驶夏季发布会宣布将于7月内向全量理想ADMax用户推送“全国都能开”的无图NOA,并将于7月内推送全自动AES(自动紧急转向)和全方位低速AEB(自动紧急制动)。同时,理想汽车发布了基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构,并开启新架构的早鸟计划。
智能驾驶产品方面,无图NOA不再依赖高精地图或先验信息,在全国范围内的导航覆盖区域均可使用,并借助时空联合规划能力带来更丝滑的绕行体验。无图NOA也具备超远视距导航选路能力,在复杂路口依然可以顺畅通行。同时,无图NOA充分考虑用户心理安全边界,用分米级微操带来默契安心的智驾体验。此外,即将推送的AES功能可以实现不依赖人辅助扭力的全自动触发,规避更多高危事故风险。全方位低速AEB则再次拓展主动安全风险场景,有效减少低速挪车场景的高频剐蹭事故发生。
自动驾驶技术方面,新架构由端到端模型、VLM视觉语言模型和世界模型共同构成。端到端模型用于处理常规的驾驶行为,从传感器输入到行驶轨迹输出只经过一个模型,信息传递、推理计算和模型迭代更高效,驾驶行为更拟人。VLM视觉语言模型具备强大的逻辑思考能力,可以理解复杂路况、导航地图和交通规则,应对高难度的未知场景。同时,自动驾驶系统将在基于世界模型构建的虚拟环境中进行能力学习和测试。世界模型结合重建和生成两种路径,构建的测试场景既符合真实规律,也兼具优秀的泛化能力。
理想汽车产品部高级副总裁范皓宇表示:“理想汽车始终坚持和用户共同打磨产品体验,从今年5月推送首批千名体验用户,到6月将体验用户规模扩展至万人以上,我们已经在全国各地积累了超百万公里的无图NOA行驶里程。无图NOA全量推送后,24万名理想ADMax车主都将用上当前国内领先的智能驾驶产品,这是一项诚意满满的重磅升级。”
理想汽车智能驾驶研发副总裁郎咸朋表示:“从2021年启动全栈自研,到今天发布全新的自动驾驶技术架构,理想汽车的自动驾驶研发从未停止探索的脚步。我们结合端到端模型和VLM视觉语言模型,带来了业界首个在车端部署双系统的方案,也首次将VLM视觉语言模型成功部署在车端芯片上,这套业内领先的全新架构是自动驾驶领域里程碑式的技术突破。”
无图NOA四项能力提升,全国道路高效通行
将于7月内推送的无图NOA带来四项重大能力升级,全面提升用户体验。首先,得益于感知、理解和道路结构构建能力的全面提升,无图NOA摆脱了对先验信息的依赖。用户在全国范围内有导航覆盖的城市范围内均可使用NOA,甚至可以在更特殊的胡同窄路和乡村小路开启功能。
在复杂的城市路口,无图NOA的选路能力也得到显著提升。无图NOA采用BEV视觉模型融合导航匹配算法,实时感知变化的路沿、路面箭头标识和路口特征,并将车道结构和导航特征充分融合,有效解决了复杂路口难以结构化的问题,具备超远视距导航选路能力,路口通行更稳定。
同时,无图NOA重点考虑用户心理安全边界,用分米级的微操能力带来更加默契、安心的行车体验。通过激光雷达与视觉前融合的占用网络,车辆可以识别更大范围内的不规则障碍物,感知精度也更高,从而对其他交通参与者的行为实现更早、更准确的预判。得益于此,车辆能够与其他交通参与者保持合理距离,加减速时机也更加得当,有效提升用户行车时的安全感。
主动安全能力进阶,覆盖场景再拓展
在主动安全领域,理想汽车建立了完备的安全风险场景库,并根据出现频次和危险程度分类,持续提升风险场景覆盖度,即将在7月内为用户推送全自动AES和全方位低速AEB功能。
全方位低速AEB则针对泊车和低速行车场景,提供了360度的主动安全防护。在复杂的地库停车环境中,车辆周围的立柱、行人和其他车辆等障碍物都增加了剐蹭风险。全方位低速AEB能够有效识别前向、后向和侧向的碰撞风险,及时紧急制动,为用户的日常用车带来更安心的体验。
自动驾驶技术突破创新,双系统更智能
理想汽车的自动驾驶全新技术架构受诺贝尔奖得主丹尼尔·卡尼曼的快慢系统理论启发,在自动驾驶领域模拟人类的思考和决策过程,形成更智能、更拟人的驾驶解决方案。
快系统,即系统1,善于处理简单任务,是人类基于经验和习惯形成的直觉,足以应对驾驶车辆时95%的常规场景。慢系统,即系统2,是人类通过更深入的理解与学习,形成的逻辑推理、复杂分析和计算能力,在驾驶车辆时用于解决复杂甚至未知的交通场景,占日常驾驶的约5%。系统1和系统2相互配合,分别确保大部分场景下的高效率和少数场景下的高上限,成为人类认知、理解世界并做出决策的基础。
理想汽车基于快慢系统系统理论形成了自动驾驶算法架构的原型。系统1由端到端模型实现,具备高效、快速响应的能力。端到端模型接收传感器输入,并直接输出行驶轨迹用于控制车辆。系统2由VLM视觉语言模型实现,其接收传感器输入后,经过逻辑思考,输出决策信息给到系统1。双系统构成的自动驾驶能力还将在云端利用世界模型进行训练和验证。
高效率的端到端模型
多任务输出在一体化的模型中得以实现,中间没有规则介入,因此端到端模型在信息传递、推理计算、模型迭代上均具有显著优势。在实际驾驶中,端到端模型展现出更强大的通用障碍物理解能力、超视距导航能力、道路结构理解能力,以及更拟人的路径规划能力。
高上限的VLM视觉语言模型
VLM视觉语言模型的算法架构由一个统一的Transformer模型组成,将Prompt(提示词)文本进行Tokenizer(分词器)编码,并将前视相机的图像和导航地图信息进行视觉信息编码,再通过图文对齐模块进行模态对齐,最终统一进行自回归推理,输出对环境的理解、驾驶决策和驾驶轨迹,传递给系统1辅助控制车辆。
理想汽车的VLM视觉语言模型参数量达到22亿,对物理世界的复杂交通环境具有强大的理解能力,即使面对首次经历的未知场景也能自如应对。VLM模型可以识别路面平整度、光线等环境信息,提示系统1控制车速,确保驾驶安全舒适。VLM模型也具备更强的导航地图理解能力,可以配合车机系统修正导航,预防驾驶时走错路线。同时,VLM模型可以理解公交车道、潮汐车道和分时段限行等复杂的交通规则,在驾驶中作出合理决策。
重建生成结合的世界模型
理想汽车的世界模型结合了重建和生成两种技术路径,将真实数据通过3DGS(3D高斯溅射)技术进行重建,并使用生成模型补充新视角。在场景重建时,其中的动静态要素将被分离,静态环境得到重建,动态物体则进行重建和新视角生成。再经过对场景的重新渲染,形成3D的物理世界,其中的动态资产可以被任意编辑和调整,实现场景的部分泛化。相比重建,生成模型具有更强的泛化能力,天气、光照、车流等条件均可被自定义改变,生成符合真实规律的新场景,用于评价自动驾驶系统在各种条件下的适应能力。
重建和生成两者结合所构建的场景为自动驾驶系统能力的学习和测试创造了更优秀的虚拟环境,使系统具备了高效闭环的迭代能力,确保系统的安全可靠。
易车原创报道
系统1其实是人根据自己过去的经验和习惯形成的直觉,可以做出快速的决策。系统2其实是一个思维推理能力,人需要经过思考或推理才能解决这种复杂的问题和应对未知的场景。简言之,系统1和系统2相互配合,成为了人类认知和理解世界、做出决策的基础。
系统1和系统2是如何应用到自动驾驶中的
系统1由一个端到端模型(E2E)实现,直接用来快速响应常规驾驶问题。
系统2由一个视觉语言模型(VLM)实现,里面包含了思考的能力。
我们利用世界模型在云端来验证系统1和系统2的能力。
以上三个系统组成了理想汽车下一代自动驾驶技术架构。什么是端到端,到底是哪个端到哪个端?它和以往的智能驾驶系统有什么区别
理想汽车系统1的进化过程:
第一代:NPN。采用模块化的设计,包含感知、定位、规划、导航、NPN等,这一代架构支撑我们在全国100个城市推送了城市NOA功能。
第二代:无图,分段式端到端。只有两个模型组成,分别是感知和规划。最大的变化是去掉了NPN,不依赖于先验信息,让我们真正做到了全国都能开,有导航就能开。
第三代:端到端模型,它是一个OneModel的结构,只有一个模型,输入的是传感器,输出的是行驶轨迹。
端到端模型的优势在于:
1、高效传递,驾驶体验更聪明和更拟人。
在无图中有两个模型,模型之间的信息传递我们运用了大量的规则;而到了端到端模型,它是一体化的模型,信息都在模型内部传递,具有更高上限。用户所能感受到整套系统的动作、决策更加拟人。
2、高效计算,驾驶时车辆会反应更及时和更迅速。
因为是一体化模型,可以在GPU里一次完成推理,端到端的延迟会更低。用户感知到的是,「眼」和「手」协调一致,反应迅速,车辆动作响应及时。
3、高效迭代,更高频率的OTA。
一体化模型可以实现端到端的可训,完全的数据驱动。对于用户来说最大感受就是OTA的速度越来越快。
系统2:VLM(视觉语言模型)。整体算法架构是由一个统一的Transformer模型组成,将Prompt(提示词)文本进行Tokenizer(分词器)编码,然后将前视120度和30度相机的图像以及导航地图信息进行视觉信息编码,通过图文对齐模块进行模态对齐,统一交给VLM模型进行自回归推理;VLM输出的信息包括对环境的理解、驾驶决策和驾驶轨迹,并传递给系统1控制车辆。
整体设计中的三个亮点:
1、设计了流式的视频编码器。相比大部分单帧的VLM模型,我们采用的流式视频编码器能够缓存更长时序的视觉信息,这对于物理世界的AI系统来说非常重要,这是一个创新的架构。
2、增加了Memorybank(记忆模块),缓存了多帧历史信息,可以解决超长上下文的推理时延问题。
3、设计了智能驾驶Prompt问题库。系统2会时时刻刻思考当前的驾驶环境,给系统1合理的驾驶建议,同时系统1也可以在不同场景下调用不同的Prompt问题,主动向系统2进行求助,帮助系统1解决部分场景。
理想汽车的自动驾驶系统考试方案:重建+生成的世界模型。
把真实数据通过3DGS(3D高斯溅射)进行重建,并使用生成模型补充新视角,两者结合所生成的场景既可以保证场景是符合真实世界的,也同时解决了新视角模糊的问题。同时我们这套系统的生成部分可以独立工作,通过Layout(布局)先验、再Reference(参考帧)的图片,再加上Prompt(提示词),生成符合真实规律但没有见过的新场景。
在场景重建时,我们需要将场景中的动静态分离,核心思想是静态环境进行重建,动态物体进行重建和新视角生成,变成360°的新资产,将两者结合生成一个3D的物理世界,同时里面的动态资产可以被随意编辑和调整,实现场景的部分泛化。
在这样的无限环境里,我们可以进行自动驾驶系统的充分学习和考试,让用户获得一个高效、安全和舒适的自动驾驶系统。
电动湃
如此一来,李想要怎么打开自动驾驶的大门?
理想,改变了原来的发展思路。
在去年Q3的财报会上,理想汽车总工程师马东辉曾表示——
「理想智驾团队计划到2024年底扩张至约2000人,2025年底扩张至超过2500人。」
为此,理想不惜花高价钱招聘人才。
除去挖角其它大厂员工以外,有报道指针对去年秋招的高校计算机系应届生,理想就开出了60-80万元年薪。
面对被内部视为“一号工程”的智驾赛道,理想的不惜投入已经表明了决心。
但当下智驾团队的裁员,又跟去年的做法完全相悖,原因是什么呢?
此前,理想喊出了今年要卖80万辆。
但随着Q1只交付了8万辆以后,且纯电战略没能一炮打响,该目标已经变得渺茫。
为此,理想缩减销量目标的消息,亦被传得沸沸扬扬。
而取消今年纯电新品的发布,该安排则得到了明确。
既然销量和纯电战略都能暂时放下,那么智驾作为“1号工程”的定位,是否也可以被调低下来?
理想缩减智驾团队规模,不排除一部分原因正出于此。
「作为一家健康企业,销量和毛利率是至重要的指标。」
「对于一家成立9年的汽车企业,我们一直是以这样的标准来要求自己。」
此外,理想产品高级副总裁范皓宇也说过,「我们不会赔着钱去搞智驾。」
如此说法,多少再印证了“理想智驾发展定位或被下调”的观点。
事实上,缩减智驾团队规模,并非只出于经营需要考虑。
近来,李想也道出了其中转变的原因——
「我们从去年9月开始研究,人类开车为什么不涉及学习极端案例?」
「如果我们不能解决这个问题,所有自动驾驶团队每天干的活,都是靠人工去调试各种的极端案例表现。」
「放的人越多,极端案例出现得越多,这和真正的自动驾驶越来越遥远。」
那么在减员以后,又该怎么做?
李想指出,「我们的大脑日常在工作的时候,分为系统一和系统二。」
「很多时候我们在开车,脑子里在想着别的事情,但我们仍然能够处理路上的各种路况。」
而在智驾领域,这个系统一就是端到端方案。
李想表示,理想过去在端到端做的研究测试中,用了大概100万的clips来训练端到端模型。
「训练卡要足够多,大概一个月做10轮左右的训练,就基本可以完成一个无图NOA相同上限的水平。」
尽管端到端带来了极大提升,但李想认为,面对中国的复杂路况,只有端到端还不够,还需要有系统二。
他给出的方案是,VLM视觉语言模型。
李想以宝马驾驶培训初级班的内容为例——
「他们只教了两个事情,一个是教看路的能力,另外是教刹车的能力,没有教任何的cornercase。」
换言之,应对突如其来的cornercase,关键在于一以贯之的扎实基本功。
VLM视觉语言模型,就是要用来做这样的基本功。
李想指出,该模型一方面是要为端到端进行兜底,并且要解决各种的泛化问题。
其中,包括像人一样读懂导航地图、红绿灯指示,即便有车辆遮挡红绿灯,也要有能力去处理。
「我们ADMax有两颗Orin-X芯片,一颗跑端到端,另一颗用来运行压缩到大概20亿规模的VLM模型。」
这番表态,再次强调了车端大算力对于城区高阶智驾的重要性。
端到端和VLM模型的能力虽好,但李想亦主动坦承,“它俩都是黑盒子。”
如何确保它们的稳定发挥,这都是不同车企在面对黑盒子模型时的难题。
李想指出,得益于Sora的启发,理想用DiffusionTransformers的方式构建了一个小型世界模型。
「通过这个世界模型,让我们的车在里面考试。」
就这样,通过「端到端+VLM模型+DiffusionTransformers」的三件套,理想完成了智驾层面的突破。
「我们验证出来的结果,令人非常兴奋。」
「我们认为在今年底或明年上半年,有监督的L3自动驾驶就可以批量向用户交付,而不是只用于做实验。」
理想,这回能保证做到吗?
国内的智驾竞赛,1年换一个花样。
2022年集体跟进BEV,去年则比拼OCC占用网格的上车速度,到了今年则是争相提出端到端。
这种演进转变,源于大家都选择紧跟着特斯拉的步伐。
用上了端到端的特斯拉FSDV12,确实擦亮了不少人的眼睛。
元戎启行CEO周光在体验后表示,「之前我以为可能只有80分,但实际做到了90分。」
开车更像人,这是大家普遍体验后对FSDV12的评价。
至于原来基于人工规则的30万行代码,这下仅剩2000多行,同样是FSDV12带来的主要变化。
写代码的需求量少了,这不可避免将造成智驾团队减员的情况。
此外,端到端带来的真实挑战亦不少。
李想指出,端到端的挑战主要来自于三个方面:
1、需要有真正会做端到端,包含端到端数据训练的人才;
2、需要真正高质量的数据;
3、需要有足够多的算力。
他强调,端到端对于算力的需求,跟以往比已经完全不同了。
马斯克就曾指出,「每10000km的行驶数据,只有1km能训练模型,而且每训练一遍,都需要消耗大量算力。」
「用100万个视频case训练,这只是勉强够用,200万个则稍好一些。」
「用上300万个,就会让人感到wow的转变,而在1000万个以后,就让人难以置信了。」
特斯拉FSDV12,是基于已经安装和投入使用约3.5万块英伟达H100芯片而来。
马斯克表示,到今年底该数字可能会达到8.5万块。
这增加的5万块GPU,耗资或超108亿元人民币。
作为参照,去年蔚来的总研发投入是134亿元,小鹏的是52.8亿元,理想则是105.9亿元。
单是在买卡方面,特斯拉的投资已经冠绝群雄。
为了通往自动驾驶的境界,这端到端的钥匙真的贵得要命了。
值得注意的是,不久前何小鹏指出,目前小鹏拥有7000张训练卡。
同时,小鹏计划每年算力训练投入超7亿元。
但这跟特斯拉相比,只能说是小巫见大巫。
不过,何小鹏认为,「有算力很难,但算力用起来更难。」
「今年小鹏的算力不紧张了,因为很多人买了算力用不起来。」
他指出,小鹏对算力的使用是质的改变,这不是1%的变化,而是从70%提升到95%的突变。
有意思的是,此前余承东说到,目前华为有着3.5EFLOPS的训练算力,超过了第2名和第3名友商的算力总和。
得益于此,他认为现在真正能够做到好用的智驾就只有2家——特斯拉和华为。
余承东还强调,等特斯拉FSD入华后,华为有信心干翻对手。
小鹏和华为,两者的智驾斗法仍在继续。
这不仅体现在言语上,双方还率先拿出了各自的端到端方案。
小鹏表示,其方案能够做到2天迭代一次,在未来18个月内对智驾能力提升30倍。
因此,何小鹏认为,高阶智驾的拐点将在18个月内到来。
面对小鹏和华为的互不相让,向来自居智驾头部的理想将给出怎样的表现,这点值得注意。
「我们非常有信心地说,2024年理想的智能驾驶产品和研发能力,在国内绝对是数一数二的。」
有了理想总裁马东辉这样的表态,我们大可对理想的表现予以更多期待。
日前,蔚来智驾研发副总裁任少卿也给出了自己的看法。
「你得有一些基本能力之后,端到端这玩意才有用,否则它是个毒药。」
「做端到端的前提,是智驾各功能模块都已经完成模型化,且有足够性能与效率的工程体系支撑。」
端到端,解决了不少过去人工规则所难以逾越的难题。
但从堆算力,到建立起整个工程体系的支撑点,这似乎又回到了一些基本项的比拼——
有多少钱去投入、能买到多少张训练卡、团队工程能力是否过关等等。
当下,大家都已摸清楚了发展方向,就看怎么在细分项目上作出过人成绩了。
这自动驾驶的钥匙看着不远,但想要拿起来,还得有些真本事。
视频主要展示搭载了理想最新高阶智驾系统的车辆,深夜在暴雨城区的复杂环境测试自动驾驶的内容。在雨刮不停工作缺依旧看不清路况下,加上光线昏暗,极大地增加了自动驾驶的难度。即便如此,测试车辆仍然能够稳定地行驶在自己的路线中,并能够自主变道、超越慢车、顺利右拐,车辆绕行路面上的障碍物,丝滑程度不亚于老司机。
李想提及的E2E+VLM技术,既端到端(End-to-End)和视觉语言模型(VisionLanguageModel),这种技术路线是当前自动驾驶领域最受推崇的。
在刚刚结束的2024中国汽车重庆论坛上,李想表示,将在今年第三季度推出全国无图NOA,并同步向测试用户推出通过300万clips训练出来的端到端+VLM的监督型自动驾驶体系。同时还表示,最早在今年底最晚明年年初,将推出基于超过1000万clips训练的监督型自动驾驶体系,届时基于这套技术,带有监督的L3级别自动驾驶就可以批量向用户交付。
汽车人传媒
就连谷歌这种财大气粗的公司,在自动驾驶出租车上连续投资了这么多年,技术专利申请了一堆,但商业上乏善可陈,连带着技术引领者的位置,也摇摇欲坠。
事实上,既然市场证实了渐进式自动驾驶升级路径是符合商业和技术规律的,谷歌的技术领导者地位也就无人在意了。这导致了Waymo多次尝试IPO未果。