大模型+自动驾驶,发展到什么阶段了?

上个月,马斯克乘坐一辆搭载了FSDV12自动驾驶系统的ModelS,进行了一场45分钟直播,虽然中间也出现了一些小插曲(比如差点闯了红灯),但整体效果依然非常惊艳。

视频中,这辆ModelS能够轻松绕过障碍物,识别道路各种标志,按照马斯克的说法,这些操作从头到尾都是通过端到端AI神经网络实现的,而非预先编程。

特斯拉的进展会给国内智驾行业带来哪些启发?我们距离自动驾驶的终局还有多远?本期险峰主题沙龙,我们将和几位行业专家与初创公司CEO,一起聊聊大模型+自动驾驶的未来。

我们请到了:

我们聊到了:

本次活动由险峰投资人徐真主持,为了保证内容质量,我们对嘉宾进行了匿名整理,并打乱了发言顺序,请勿对号入座。

也欢迎更多朋友加入险峰社群,一起探讨大模型+自动驾驶的新方向。

险峰:先聊一个老生常谈的问题,当初特斯拉选择了纯视觉路线,是因为激光雷达的成本太高,但是国内厂商普遍还是选择了摄像头+激光雷达的组合,那么这次FSDV12的成功,会不会让国内厂家也放弃掉激光雷达的路线?

A:我觉得一定会,因为特斯拉已经把这条路走通了,大家没有不跟的道理。

这和GPT的发展逻辑类似:今年国内大语言模型创业如火如荼,很多大厂纷纷下场,立下flag要做一款能对标GPT4的产品,因为人家OpenAI已经把东西做出来了,已经验证的东西,你再去做就非常work,但这也意味着之前那些老的技术路线很快会被放弃掉,同样的道理,对应到未来自动驾驶也是一样的。

B:首先明确一点,纯视觉方案是绝对够用的,其实人类自己也没进化出激光雷达,人眼本质就是先感知周围的2D图像,经过人脑处理后进行3D深度估算,最后对路况做出判断,所以只靠双目视觉完全可以满完驾驶需求。

但是,作为一个消费者,因为现在还没有一种完美的L4到L5级别的自动驾驶方案,那么比较高档的车型上,配一些激光雷达作为冗余备份,这个需求也是客观存在的。

举个例子,之前特斯拉出现一些撞车的事故,比如前面有一辆翻倒的白色货车,AI就认为那是天空了,这种错误我们人眼也会犯,但如果有激光雷达,可能就会避免掉。

C:作为企业,我平时对激光雷达接触比较多,首先从实际应用的角度,激光雷达确实能解决一些纯视觉解决不了的问题,比如夜晚低光照,或者逆光炫光的环境,纯视觉都有天然的劣势,这时激光雷达就是一个很好的补充。

回到现实来说,我们也和多家主机厂深入交流过:大家之所以不愿意选择激光雷达,确实是因为成本太高,但是真正用过之后,工程师都说特别爽,实际效果上看还是有它存在的价值。

当然,因为成本高,现在也出现了一些激光雷达的替代方案,比如4D毫米波,其实就是介于传统毫米波和激光雷达之间的产物;另外,纯视觉方案是不是就一定没问题,我认为现在判断也还太早,可能还需要经历更复杂的场景、更多的里程之后再观察。

D:就我的理解,大模型的核心能力是通过Transformer建立起各数据之间的关联,刚才几位老师也就提到,纯视觉唯一的缺点,它是一个二维的传感器,而激光雷达是三维的,但本质上,二维场景和三维场景是有关联的。

那我们是不是能通过大模型,把2D和3D数据关联起来,让它从某种意义上更深度的理解驾驶场景,产生一些不一样的涌现?我觉得可以拭目以待,如果这一天真的到来,可能2D视觉也好、3D激光雷达也好、4D毫米波也好,这些数据本质上是同一个数据,无论用哪一个数据,或许都可以能解决自动驾驶的问题。

我想到另一个问题,现在各主机厂都是拼传感器数量,我有多少颗激光雷达、摄像头、毫米波雷达;更多的传感器数量自然也意味着对算力的要求更高,是100、200还是500TOPS,但是事实上,特斯拉已经用实践证明,对算力需求可能并不需要那么高。

我们总是认为,未来汽车会越来越智能,但是大模型驱动下的自动驾驶,是不是会让汽车越来越不智能?比如现在的算力分布,一部分在云端,一部分在车端,那么未来随着大模型的发展,云端算力越来越高,车端反而就不需要太智能,汽车只要忠实地执行云端的指令,可能就已经足够了,这是我的看法,谢谢。

A:从这次FSDV12的表现,结合我对国内主机厂的一些了解,这个差距可能会在一到两年左右,能否追的上主要是看两个方面:

首先是算法层面,我们知道特斯拉用的芯片算力只有144TOPS(万亿次操作每秒),国内厂商至少都是500甚至上千TOPS,所以特斯拉对算力的利用效率是非常恐怖的,这是第一个需要追赶的。

此外,过去数年里,已经有数百万辆特斯拉汽车在收集真实环境里的道路数据,数据的积累是第二个需要追赶的,当然大模型在这里面也可以发挥一定的作用,比如在虚拟世界进行更好的仿真模拟,减少这种数据采集的周期。

A:首先肯定是算力,现在市场上可以部署大模型的算力平台非常少,国内的一些头部主机厂也在积极布局,但目前看就只有英伟达和特斯拉,其他的算力平台暂时还没有投入使用。

这里所说的算力不是车端算力,而是云端服务器算力,这是大模型部署的前提,现在训练一个文本大语言模型,就已经需要上万张的A100卡,如果再把图像信息也加进来,对算力的要求只多不少;比如说像wayve,我了解到他们是跟微软的Azure合作,用了很多张卡,训练了很久才得到的结果。

A:一个方向是大模型带来车内交互方式的改变。其实现在的智能座舱本质还是手机的延续,但是我们的双手要开车,所以车内场景天然适合语音交互而不是触屏,那怎样把语音跟多模交互结合起来,再加入一些手势识别、眼球识别,最后把这些信息转换成车可以识别的指令,这是未来多模态大模型可以期待的事情。

从我们自己看来,目前整个生态和技术已经到了一个快爆发的阶段,可能只差一个类似iPad上《水果忍者》这样的杀手级应用,由此带来一些基于车用大模型的应用层开发,对这个生态我还是非常看好的。

险峰:这里稍微补充一下险峰的观点,我们对自动驾驶还是比较乐观的,觉得未来一定会有新的机会出现。

其实刚才大家的讨论,都基于一个认知:即一定要用大模型的方式去训练自动驾驶算法,因此才需要算力、数据等大量资源的支撑。但就像当年在渐进式从L2到L4、一步式直接到L4的讨论一样,未来我们是否可以先用一些专用小模型去解决部分特殊场景?它可能不像大模型需要那么高成本,但可以先跑起来去解决现实问题。

整个自动驾驶算法训练、测试的链路非常长,如果能在其中一些环节降低成本,企业其实就可以获得营收,这可能是一家初创公司相对低投入、比较好切入的点。

其实特斯拉强就强在,能把学术上的东西实际地做出来应用到车上,虽然工程化问题是自动驾驶迈不过的一道坎,但现在说已经到算法的终局形态也为时尚早,路线虽然在收敛、但也一直在迭代,永远期待有更优解。

险峰:从发展历程来看,特斯拉2020年引入BEV,21年引入Transformer,再到今天它展示的FSDV12,特斯拉一直在把学术最前沿的东西不断地工程化,到今天它基本已经摸到了自动驾驶的及格线,甚至是到了七八十分的水平,那么特斯拉下一代的worldmodel,会是自动驾驶的一个终极解决方案吗?大家对对此怎么看?我们不妨来畅想一下。

A:我觉得汽车的智能化,核心不仅仅是省掉了一个驾驶员,而是让运输载具实现了信息化。比如一些封闭厂区内,无人载具可以和工厂的TMS或者MES系统深度地融合,直接成为它的一部分,以前你需要调配一些第三方物流,现在完全不需要,运力会变成像交流电,插上插座就能用一样方便。

从这个角度上来讲,未来的无人驾驶会导致汽车的形态发生分化,会根据不同场景诞生出很多不同的物种,而不是像现在一样,只有乘用车、商务车、货运车之分;比如未来厂区里的运输车,会和公路上跑的运输车完全不一样,不仅是外观不同,能力也完全不同,所以我不认为特斯拉的路线会是一个终极解决方案,它会是一个思路、一个方法论,但未来肯定还会有别的方案不断加入到系统中来。

B:我也觉得,现在谈终局可能还有点早,就像刚才主持人说的,特斯拉能够比我们超前两到三年,探索出行业大方向可能是什么,推动整个行业加速往终局的方向上走,这些贡献我觉得怎么夸都不为过,但要真正实现L4甚至L5的终极模式,肯定也需要靠整个行业一起的努力和贡献。

C:太远的终局确实不好判断,我觉得首先能确定的是,大模型超强的推理能力,一定是能够应用到自动驾驶中的,包括它能给你一些更好的决策,并且还能给你解释出原因,这个目前已经有一些公司在做了;但大模型的学习效率和速度也还需要迭代,比如现在整个云端要很大算力、很多算据,这还是一个成本很高的事情,还有很大的优化空间,解决了这些问题之后,才有可能让大模型给每个人提供一些个性化的服务,比如更个性化的交互,或者你更喜欢的驾驶风格等等。

D:特别同意刚才嘉宾的一句话——自动驾驶终局的本质,是“如何让机器人理解我们所处的真实世界”,包括特斯拉的worldmodel,也都是在目前自动驾驶的范式之外,探索有没有更好地去推理和理解这个世界的方式。

所以,如果未来有一套算法,能够让通用的机器人非常好地去理解我们的世界的时候,自动驾驶这件事也就迎刃而解了。

这方面,我觉得不是学界在引领业界,而是反过来,业界在领导学界,因为业界才能接触到真实情况下驾驶的一手资料和数据,从而能发现一些我们在实验室里模拟不了的东西,所以,自动驾驶终局需要学界和业界共同去努力,不断加强沟通,对此我个人还是非常乐观的,希望这一天尽早到来。

THE END
1.新能源时代!看大模型(LLMs)如何助力汽车自动驾驶!本文主要介绍大模型(LLMs)如何助力汽车自动驾驶,简单来说,作者首先带大家了解大模型的工作模式,然后介绍了自动驾驶大模型的3大应用场景,最后指出自动驾驶大模型将会是未来的发展趋势,只要坚持,国内新能源造车新势力还是很有机会的。本文没有深入讲解算法架构,而是化繁为简,能够让您很快的对自动驾驶大模型有个较为全面https://blog.csdn.net/m0_71745484/article/details/141711644
2.大模型+自动驾驶专题:AI大模型在高阶自动驾驶中的应用大模型+自动驾驶专题:AI大模型在高阶自动驾驶中的应用 在自动驾驶技术的发展过程中,AI大模型以其强大的学习能力和处理复杂任务的能力,正逐渐成为推动高阶自动驾驶实现的关键因素。AI大模型在高阶自动驾驶中的应用主要体现在以下几个方面: 感知环境:自动驾驶汽车需要实时感知周围环境,包括车辆、行人、交通标志等。AIhttps://www.sgpjbg.com/task/2725503.html
3.首个自动驾驶领域大模型来了,噱头还是突破?南方+日前,首个自动驾驶领域大模型迎来面世,毫末智行发布自动驾驶生成式大模型“雪湖·海若”,通过引入驾驶数据建立RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化,最终实现端到端自动驾驶。 21世纪经济报道记者了解到,“雪湖·海若”现阶段主要用于解决自动驾驶的认知决策问题。目前,“雪湖·海若”实现了https://static.nfapp.southcn.com/content/202304/18/c7582743.html
4.大模型日新月异,自动驾驶企业“跟得紧才能跑在前”?其中,“1.0”时代以早期无人驾驶车辆为代表,比拼传感器特别是激光雷达的数量和线束精度,数据积累在数百万公里;“2.0”时代以深度学习技术上车为标志,车规级传感器大量上车,但更注意车端感知算法和人工规则为主的决策模型优化,数据积累在千万公里以上;“3.0”时代以AI大模型在自动驾驶领域的应用为标注,以数据驱动方式来http://www.xzrbw.com/info/1221/362508.htm
5.大模型人工智能大模型在自动驾驶领域的应用随着ChatGPT的火爆,大模型受到的关注度越来越高,大模型展现出的能力令人惊叹。 第一个问题:怎样的模型可以称之为大模型呢? 一般来说,我们认为参数量过亿的模型都可以称之为“大模型”。而在自动驾驶领域,大模型主要有两种含义:一种是参数量过亿的模型;另一种是由多个小模型叠加在一起组成的模型,虽然参数量不过https://cloud.tencent.com/developer/article/2345050
6.从奔驰到自行车都在集成的大模型,是汽车智能化的下个风口?2.用于自动驾驶等智能系统。前者如前面说到的奔驰与微软的合作,以及接入通义千问的阿里巴巴AliOS智能汽车操作系统;后者如理想汽车自研的MindGPT,摆脱对高清地图的依赖,让汽车更接近人类司机的驾驶表现,以及毫末智行的自动驾驶生成式大模型DriveGPT,帮助解决认知决策问题,最终实现云端到车端的自动驾驶。此外,长城、奇瑞https://www.iyiou.com/analysis/202308041049665
7.2023年度十大前沿科技趋势发布:这项技术排第一!今年的CVPR最佳论文颁给了端到端自动驾驶,这几乎代表着一种共识:端到端自动驾驶是行业的未来。 随着生成式AI的发展,以ChatGPT为代表的大语言模型的泛化能力有了极大提升,端到端自动驾驶技术也因此受到广泛关注。 端到端自动驾驶技术以全部模块神经网络化为特征,对规则的依赖度低,具备智能涌现能力和跨场景应用潜力。https://wlxy.yangtzeu.edu.cn/sysywlglzx1/info/1027/1466.htm
8.小鹏AI天玑5.4.0全球首发,智驾云端大模型竞争拉开序幕【2024年10月24日,广州】今日,“小鹏P7+AI智驾技术分享会暨首发AI天玑5.4.0先享会”在广州成功举办,小鹏汽车副总裁、自动驾驶负责人李力耘博士、小鹏汽车智能体验负责人于桐,分别介绍了小鹏端到端大模型的技术优势,和首发搭载在小鹏P7+上的AI天玑5.4.0版本。 https://www.xiaopeng.com/news/company_news/5393.html
9.覆盖200+服务嘲,阿里「通义」大模型系列打造国内首个AI统一底座通义- 视觉大模型自下往上分为了底层统一算法架构、中层通用算法和上层产业应用。据了解,通用 - 视觉大模型可以在电商行业实现图像搜索和万物识别等场景应用,并在文生图以及交通和自动驾驶领域发挥作用。 阿里始终秉持开源开放的理念。此次通义大模型系列中语言大模型 AliceMind-PLUG、多模态理解与生成统一模型 AliceMindhttps://developer.aliyun.com/article/1214284
10.人工智能大模型原理与应用实战:利用大模型进行自动驾驶研究自动驾驶技术是人工智能领域的一个重要研究方向,它旨在通过集成计算机视觉、机器学习、路径规划和控制等技术,实现无人驾驶汽车的智能化和自主化。在过去的几年里,自动驾驶技术取得了显著的进展,尤其是在深度学习和大模型方面的研究。这篇文章将介绍如何利用大模型进行自动驾驶研究,包括背景介绍、核心概念与联系、核心算法https://blog.51cto.com/universsky/8997161