从特斯拉到毫末智行自动驾驶的进化之路为何都奔向大模型?快科技

特斯拉在2020年宣布将基于深度神经网络的大模型引入其自动驾驶之中,到现在已实现了纯视觉FSDBeta的大规模公测。毫末智行在2021年推出数据智能体系MANA的同时,也宣布要借助大模型提升数据处理能力,从而加速HPilot智能辅助驾驶产品的进化。

小鹏在2022年1024科技日中官宣了重感知路线的XNGP,并同样提出要引入并使用大模型打通XNGP全场景能力的观点。百度Apollo则在最近结束的ApolloDay上介绍了文心大模型,并表示这将是提升器自动驾驶能力的核心驱动力。

事实上,早在自动驾驶企业进入“大模型”阶段之前,后者早就成为了整个AI产学界的技术宠儿,甚至由此出现了各种参数不一、任务导向不同的大模型。

但理论归理论,应用归应用,自动驾驶企业为何纷纷开始转型大模型,大模型又究竟能为自动驾驶企业带来什么,通过以下内容,你或许就能明白一二了。

大模型,成为自动驾驶量变到质变的催化剂

大模型的到来并不是偶然。在大模型到来时,自动驾驶正在经历由封闭场景到开放场景的质变期,而既有的数据处理体系并不能实现这一目的。

具体来看,包括自动驾驶企业在内,此时的AI普遍遵循算法、算力和数据三位一体的研究范式,即以一定的算力和数据为基础,使用开源算法框架训练模型。

在封闭场景中,自动驾驶并不需要应对并输出多么复杂的规控策略,所以此时对数据、算力、算法的要求并不高;但在进入开放场景后,基于对安全性、舒适性、高效性的考量,自动驾驶就必须具备高效获取并处理海量&多维度数据的能力。

这带来了两个问题。第一个问题是,此时的模型多是基于不同场景及任务制作的,只能针对有限的、单一的数据种类,无法进行多模态大量数据处理;

另一个问题则是,以往单场景规控往往由多个模型组成,其中单个模型仅负责一种规控动作,这种过于明确又独立的分工组合,也无法应对连续的多场景任务。

类似的问题也一度困扰着整个AI产业。例如人脸识别系统虽然能识别真人,但也能被照片糊弄;在线翻译能够准确翻译简单句式,但不能结合语境转换单词词义。

大多数机器学习的性能取决于特征识别和提取的准确程度,而在自动驾驶中,这也就成为了限制其感知能力、进而一步步影响到规控策略的关键。

机器学习的困局,伴随着深度学习的到来出现了转机。虽然属于机器学习范式中的一种,但同样通过数据,深度学习能够从数据中学习更高级的特性:深度学习有着深度更高的神经网络,从数据输入到输出过程中不仅会通过多层神经元,也能通过这种非线性的网络结构,实现更复杂函数的逼近。

简单来说,深度学习就是通过构建具有更多层神经元的机器学习模型,并依靠大数据来学习更有用的特征,从而最终提升分类或预测的准确性。相较机器学习,深度学习不仅可以用无标定数据实现无监督训练,还能与大数据与大算力组合发挥更大性能,可以说是和AI产业的发展方向高度契合。

那么什么样的模型能够发挥深度学习的真正性能?自然是参数量更大的大模型。有研究指出,在一些任务中,模型性能会随着规模的增加而可靠地提高,而在另一些任务中,模型甚至会在某个规模上表现出性能的突然提升,这也被称之为突现能力。

此外,更大参数的模型,还能在提升数据处理能力的同时,带来更强的泛化能力,也就是能够在同时处理多种不同类型的任务,这也就意味着,类似自动驾驶感知这样的多模态融合数据任务不再需要各种小模型进行复杂协同,只需要一个大模型就足够了。

可以看出,大模型的到来对整个AI产业来说,都是堪称从量变到质变的催化剂,包括谷歌、微软在内的科技界巨头都在对大模型的研究中,投入了大量资源;自动驾驶也顺应了这一趋势,尤其在拥有1亿级参数的Transformer大模型脱颖而出后,其在时序特征和图像识别领域的能力很快就被特斯拉、毫末智行等头部自动驾驶企业发现,并迅速投入到了使用。

跳票两年只为“单堆栈”,大模型让特斯拉加速转型

尽管特斯拉在FSD的研发和落地进度上一骑绝尘,但事实上,特斯拉也就是在最近几天才宣布结束FSDBeta的内测状态,正式开启大规模公测阶段。而在此前长达两年的公测跳票,马斯克虽然没有说明原因,但从FSDBeta的更新中,我们依旧能猜得一二,那就是特斯拉在这两年中,经历了一场基于大模型的技术转型。

具体来看,特斯拉从2020年10月宣布开启FSDBeta内测,此时的马斯克还很乐观,认为FSDBeta用不了多久就能进入公测阶段,然而事实是,早期版本的FSDBeta问题百出,经常在包括无保护左转、环岛等场景中陷入死循环。

同年8月,在开启内测前夕,马斯克曾公开表示FSD刚刚经历了一次架构方面的“重写”,至于究竟重写了什么,马斯克只是表示,“神经网络会吸收越来越多的功能”。

而到了一年后,FSDBetaV11更新,里面出现了一个关键词,叫做“单堆栈”。单堆栈的意思就是单一的神经网络,它将会成为FSDBeta的主导;此外还有一段话引人注意,“在高速公路上启用FSDBeta。这统一了高速和非高速路段的视觉和规划堆栈,并取代了已有四年多历史的传统高速堆栈。传统的高速堆栈仅依赖于几个单独工作的摄像头和单帧网络,曾经被设置为处理简单的、专注于车道的操作。”

显而易见的是,这一段内容描述,与基于深度学习的大模型能力非常接近,而在2021TESLAAIDAY上,特斯拉AI高级总监AndrejKarpathy宣布,将引入Transformer进行大规模的无监督学习——这不能说非常巧合,只能说是完全一致了。

大模型的能力,在2021与2022TESLAAIDAY上,得到了非常充分的展示。特斯拉不仅成功将全车8个摄像头获取的感知数据拼接成了一幅具有时序特征的4D向量空间,还在之后引入了占用网络,既实现了事无巨细的高效率标注,又能由此进行实时预测和演练,输出最佳规控策略。

笼统总结,在正式引入大模型之前,特斯拉的高阶辅助驾驶能力既不能对硬件做到高效应用,也不能在软件层面做到打通,另外实现能力也受模型参数限制,导致频繁翻车;而在引入大模型之后,FSD终于打通了全场景的各项能力,其自动驾驶能力也不再是单一功能的简单堆栈,有了大数据与大算力的积累,加上自我学习带来的效率提升,这一场耗时两年的转型虽然成本高昂,但绝对物超所值。

注重数据积累,三年间让毫末实现技术蝶变

就在特斯拉的转型途中,国内这家自动驾驶初创公司毫末智行才成立。但新来驾到的好处是可以站在前人的肩膀上,既能看到好的机会,也能避免一些别人踩过的坑。由于在公司创立之初就确立了数据驱动的发展策略,引入大模型很快就成为了重中之重。

1亿公里的数据集对其它自动驾驶企业来说或许遥不可及,但对毫末智行来说,背后则有着大规模量产车型和真实道路场景数据的支撑;而对于算力问题,车端有小魔盒3.0,云端有智算中心,眼下唯一的问题,就是如何借助大模型快速提升数据处理能力了。

毫末智行对大模型的研究和应用是全方位的。首先在感知层面,毫末智行的第一步,就是借助大模型实现包括摄像头+激光雷达在内众多传感器数据的前融合。对比传统的后融合技术,前融合更考验模型对大数据的并行计算能力,对此Transformer自然手到拈来;第二步则是借助其时序能力,将结果映射到BEV网络上,成为一个连续、可预测的感知世界。

认知层面则聚焦在如何化解长尾难题,这里毫末智行的解法是先通过大数据预训练大模型,再由大模型统一其它各类场景任务模型,经过标注数据集的不断训练,大模型会从中逐渐掌握人类驾驶的经验,而这也将成为其应对各类驾驶场景的统一策略。

在标注与训练层面,除了不断提升自动标注与训练的效率,毫末智行也在提升大模型的自监督学习能力,进一步发挥大数据的优势;此外,庞大的数据集也会影响大模型的训练效率,通过引入增量式学习,毫末智行又能够对大模型的算力资源实现科学分配。

最后则是针对仿真系统的运用,为了更进一步提升训练效率,毫末智行需要让仿真系统在更真实的基础上,实现更高效率的验证和训练,这自然也更需要大模型的参与。

大模型、大数据、大算力,合力驱动质变

总体来说,对于自动驾驶企业,大模型不仅仅是为了提升自动驾驶能力,而是是确确实实代表了整个AI产业的发展未来,由特斯拉、毫末智行、小鹏等自动驾驶玩家的计划当中,都越发看到大模型发挥效果的身影。

除了大模型的大规模应用外,有关如何进一步提升大模型性能,AI产业还在不断投入研发成本,例如超大规模参数的大模型的应用。在未来,大模型的参数不仅会越来越大,类型也将越来越多,以不断满足包括自动驾驶在内整个AI产业的需求,这又将驱动大数据与大算力组成循环发展,相信在这一趋势下,自动驾驶技术也将越发成熟,直到真正实现,为人类的出行方式带来质变式的变革。

THE END
1.新能源时代!看大模型(LLMs)如何助力汽车自动驾驶!本文主要介绍大模型(LLMs)如何助力汽车自动驾驶,简单来说,作者首先带大家了解大模型的工作模式,然后介绍了自动驾驶大模型的3大应用场景,最后指出自动驾驶大模型将会是未来的发展趋势,只要坚持,国内新能源造车新势力还是很有机会的。本文没有深入讲解算法架构,而是化繁为简,能够让您很快的对自动驾驶大模型有个较为全面https://blog.csdn.net/m0_71745484/article/details/141711644
2.大模型+自动驾驶专题:AI大模型在高阶自动驾驶中的应用大模型+自动驾驶专题:AI大模型在高阶自动驾驶中的应用 在自动驾驶技术的发展过程中,AI大模型以其强大的学习能力和处理复杂任务的能力,正逐渐成为推动高阶自动驾驶实现的关键因素。AI大模型在高阶自动驾驶中的应用主要体现在以下几个方面: 感知环境:自动驾驶汽车需要实时感知周围环境,包括车辆、行人、交通标志等。AIhttps://www.sgpjbg.com/task/2725503.html
3.首个自动驾驶领域大模型来了,噱头还是突破?南方+日前,首个自动驾驶领域大模型迎来面世,毫末智行发布自动驾驶生成式大模型“雪湖·海若”,通过引入驾驶数据建立RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化,最终实现端到端自动驾驶。 21世纪经济报道记者了解到,“雪湖·海若”现阶段主要用于解决自动驾驶的认知决策问题。目前,“雪湖·海若”实现了https://static.nfapp.southcn.com/content/202304/18/c7582743.html
4.大模型日新月异,自动驾驶企业“跟得紧才能跑在前”?其中,“1.0”时代以早期无人驾驶车辆为代表,比拼传感器特别是激光雷达的数量和线束精度,数据积累在数百万公里;“2.0”时代以深度学习技术上车为标志,车规级传感器大量上车,但更注意车端感知算法和人工规则为主的决策模型优化,数据积累在千万公里以上;“3.0”时代以AI大模型在自动驾驶领域的应用为标注,以数据驱动方式来http://www.xzrbw.com/info/1221/362508.htm
5.大模型人工智能大模型在自动驾驶领域的应用随着ChatGPT的火爆,大模型受到的关注度越来越高,大模型展现出的能力令人惊叹。 第一个问题:怎样的模型可以称之为大模型呢? 一般来说,我们认为参数量过亿的模型都可以称之为“大模型”。而在自动驾驶领域,大模型主要有两种含义:一种是参数量过亿的模型;另一种是由多个小模型叠加在一起组成的模型,虽然参数量不过https://cloud.tencent.com/developer/article/2345050
6.从奔驰到自行车都在集成的大模型,是汽车智能化的下个风口?2.用于自动驾驶等智能系统。前者如前面说到的奔驰与微软的合作,以及接入通义千问的阿里巴巴AliOS智能汽车操作系统;后者如理想汽车自研的MindGPT,摆脱对高清地图的依赖,让汽车更接近人类司机的驾驶表现,以及毫末智行的自动驾驶生成式大模型DriveGPT,帮助解决认知决策问题,最终实现云端到车端的自动驾驶。此外,长城、奇瑞https://www.iyiou.com/analysis/202308041049665
7.2023年度十大前沿科技趋势发布:这项技术排第一!今年的CVPR最佳论文颁给了端到端自动驾驶,这几乎代表着一种共识:端到端自动驾驶是行业的未来。 随着生成式AI的发展,以ChatGPT为代表的大语言模型的泛化能力有了极大提升,端到端自动驾驶技术也因此受到广泛关注。 端到端自动驾驶技术以全部模块神经网络化为特征,对规则的依赖度低,具备智能涌现能力和跨场景应用潜力。https://wlxy.yangtzeu.edu.cn/sysywlglzx1/info/1027/1466.htm
8.小鹏AI天玑5.4.0全球首发,智驾云端大模型竞争拉开序幕【2024年10月24日,广州】今日,“小鹏P7+AI智驾技术分享会暨首发AI天玑5.4.0先享会”在广州成功举办,小鹏汽车副总裁、自动驾驶负责人李力耘博士、小鹏汽车智能体验负责人于桐,分别介绍了小鹏端到端大模型的技术优势,和首发搭载在小鹏P7+上的AI天玑5.4.0版本。 https://www.xiaopeng.com/news/company_news/5393.html
9.覆盖200+服务嘲,阿里「通义」大模型系列打造国内首个AI统一底座通义- 视觉大模型自下往上分为了底层统一算法架构、中层通用算法和上层产业应用。据了解,通用 - 视觉大模型可以在电商行业实现图像搜索和万物识别等场景应用,并在文生图以及交通和自动驾驶领域发挥作用。 阿里始终秉持开源开放的理念。此次通义大模型系列中语言大模型 AliceMind-PLUG、多模态理解与生成统一模型 AliceMindhttps://developer.aliyun.com/article/1214284
10.人工智能大模型原理与应用实战:利用大模型进行自动驾驶研究自动驾驶技术是人工智能领域的一个重要研究方向,它旨在通过集成计算机视觉、机器学习、路径规划和控制等技术,实现无人驾驶汽车的智能化和自主化。在过去的几年里,自动驾驶技术取得了显著的进展,尤其是在深度学习和大模型方面的研究。这篇文章将介绍如何利用大模型进行自动驾驶研究,包括背景介绍、核心概念与联系、核心算法https://blog.51cto.com/universsky/8997161