您是否想浏览中国自主品牌出口车型,可以为您切换到易车国际站。
“大模型”是实现自动驾驶的唯一出路!
什么是大模型?为了说明这个问题,我们先看一个简单的方程:y=f(x)
这里的x有几个,我们就说有几个参数。那么什么是大模型呢?就是这个x有几十亿甚至上百亿个。是的,没错,就是:百亿个!
大模型:泛指具有数十亿甚至上百亿“参数”的深度学习模型。
为了说明大模型是否可以让自动驾驶真的走向无人?咱们先看看“自动驾驶”的前世今生!
自动驾驶一直是汽车人的梦想,为了实现自动驾驶,从上个世纪开始,汽车人们就在做着各种尝试:
无线电控制的自动驾驶汽车用线圈引导控制汽车
美国为了促进自动驾驶的发展,2001年开始开展了DARPA挑战赛。是在美国的西南部的沙漠里进行,需要完成150英里长的赛道。前几期,15支参赛队伍,几乎无人能行走超过8英里。而在2005年,来自斯坦福大学的车队,用了七个小时顺利完成全部比赛。
这是一次非常大的跨越,不同于其他没有完赛的车队,斯坦福车队的”自下而上的数据驱动型人工智能“打败了其他车队”自上而下的指令符号型人工智能“。
这场比赛的结果,证明了汽车的自动驾驶的关键问题在于“软件”,而不是“硬件”。而软件的关键问题又是“算法”。数据型驱动的人工智能更加能够适应千变万化的路况,而不是程序员预先抽象出来的逻辑。
既然方向已经确定,那么剩下的关键:就是如何采集和处理数据的问题了。
上面描述的过程,大概描述了自动驾驶采用“神经网络、训练算法"的初始。
与早期的人工智能模型相比,后期发展出来的大型模型在“参数”量上取得了质的飞跃,尤其是Transformer模型的出现,导致了在复杂任务的建模能力整体上的提升:1)学习能力增强:以应对更复杂的任务;2)泛化能力加强:以实现更广泛的适用性;3)鲁棒性提高;4)具备更高层次认知互动能力:可模拟某些人类能力等。
1.CNN模型:2011-2016年
自动驾驶汽车最初大规模采用的就是CNN模型,也叫:卷积神经网络。CNN极大提升了自动驾驶车辆的环境感知能力:
但是,CNN模型需要大量的标注数据,而量大、高质量的标记数据获取起来有难度。这就导致其适应多种尤其是小概率路况的能力不强,时序处理能力也较RNN弱。
卷积神经网络
2.RNN模型:2016-2018
3.GAN模型:2016-2018
与RNN同步采用的GAN模型,也叫做“生成对抗网络”。它的生成能力缓解自动驾驶系统训练数据不足的问题。GAN可以学习复杂分布,生成高质量的合成数据可用于缓解自动驾驶系统训练数据不足的问题。
例如GAN可以生成模拟的传感器数据、场景信息,测试自动驾驶算法的鲁棒性,也可以用于交互式模拟场景生成。
GAN模型:生成的数据质量难以控制,很难达到足够逼真的程度。在具体应用时相对有限。
4.BEV模型:2018-2020
BEV也叫做“鸟瞰模型”,核心思想是将车辆周围的三维环境数据(如来自激光雷达和摄像头的点云、图像等数据)投影到俯视平面上生成二维的鸟瞰图。这种从3D降维到2D的的方式,获得了一个巨大的好处:比原始传感器数据更加直观和信息丰富的环境表达。可以更清晰地观察道路、车辆、行人等元素和位置关系,增强自动驾驶对复杂环境的感知能力。
另外,在这个压缩为二维的方法,可以将多种传感器数据融合在一起,进行一个共享的表达中,可以获得更一致和全面的信息。
但是BEV也有自己的缺点:大量的坐标变换和数据处理,增加了计算和对硬件的要求。另外三维到二维的处理,一定会损失一些细节信息,如遮挡关系。
5.Transformer模型:2021至今
Transformer模型最大的创新在于提出了“注意力机制”,这一机制极大地改进了模型学习远距离依赖关系的能力,突破了传统RNN和CNN在处理长序列数据时的局限。
在Transformer出现之前,自然语言处理一般使用RNN或CNN来建模语义信息。但RNN和CNN均面临学习远距离依赖关系的困难:RNN的序列处理结构使较早时刻的信息到后期会衰减;而CNN的局部感知也限制了捕捉全局语义信息。这使RNN和CNN在处理长序列时,往往难以充分学习词语之间的远距离依赖。
Transformer解决了传统模型的长序列处理难题,并给出了可无限扩展的结构,奠定了大模型技术实现的计算基础。也成为现在大家竞相使用的模型之一。
一方面,BEV可以高效表达自动驾驶系统周围的丰富空间信息;另一方面,Transformer在处理序列数据和复杂上下文关系方面展现了独特优势。两者结合可以充分利用BEV提供的环境空间信息,以及Transformer在多源异构数据建模方面的能力,实现更精确的环境感知、更长远的运动规划和更全局化的决策。两者组合可实现互补,增强对复杂场景的理解表达。
2020年以来,Transformer+BEV结合正在成为自动驾驶领域的重要共识,推动自动驾驶技术进入崭新发展阶段。
6.占用模型:2022-至今
BEV+Transformer的不足:鸟瞰图为2D图像,会缺失一些空间高度信息,无法真实反映物体在3D空间的实际占用体积,故而在BEV中更关心静止物体(如路沿、车道线等),而空间目标的识别(如物体3D结构)难以识别。
特斯拉在2023年AIDay公开了occupancynetwork(占用网络)模型,基于学习进行三维重建,意图为更精准地还原自动驾驶汽车行驶周围3D环境,可视作BEV视图的升华迭代。
占用网络基于学习将三维曲面表示为深度神经网络分类器的连续决策边界,可以在没有激光雷达提供点云数据的情况下对3D环境进行重建,得到更加准确的三维场景信息。
总之,
Transformer+BEV+占用网络算法让车辆能够更精准地理解复杂的交通环境,为L3和更高级别的自动驾驶系统提供更强的环境感知能力,从而真正的落地实现“无人驾驶”。