《智能汽车产业专题报告》钛祺智库报告分享算法栅格大模型神经网络

高阶智驾技术进步曲线愈发陡峭:21年特斯拉通过BEV扩展感知野→22年占用网络解决通用障碍物识别→23年端到端框架解决从规则驱动到数据驱动的迭代效率&场景泛化问题→24年行业开始把LLM框架融合到智驾算法框架(同时解决corner-case认知、可视化AI决策过程、增强人机交互信任感&增强决策结果可解释性);虽然终端产品体验/商业化进程尚未突破阈值(乘用车ADAS距离解放驾驶员双手还有距离、Robotaxi/港口无人驾驶等商业化应用渗透率有限),但技术进步的进程是明显提速的,高阶智驾有望加速朝L4演进;

厘清Robotaxi/单车智能/车路协同的关联:1)Robotaxi的to-B属性决定了其与单车智能在技术路线&BOM成本&泛化能力方面会有阶段性差异:Robotaxi不存在乘客主动接管车辆的可能,且需要对监管负责,刚需更多规控代码&硬件冗余(跨城市泛化更困难&整车BOM成本更高);乘用车L3/L4追求以量产车的成本实现全场景智驾,当前在接管率指标上落后于Robotaxi,但算法迭代速度更快(得益于端到端&数据积累),看好未来依托算法能力抹平硬件BOM投入差距;2)车路协同有助于拔高单车智能的系统能力上限,但不影响乘用车高阶智驾渗透:乘用车OEM规划的高阶智驾车型长远目标都是在全国范围内实现L3/L4,某几个城市/某些路段的路侧智能化程度并不会影响车企规划;

一、智能座舱&智能驾驶概念、空间、格局

1.1智能化带来的产业链变革:国内供应商崛起中,各环节基本都有国产供应商

智能座舱-移动多媒体空间:车机从收音机/MP3向高性能消费电子终端看齐

ASP较高且仍将提升+渗透提速+格局较好-座舱域控:从传统车机控制器(1-2k)→8155系列(2-3k)→82系列(4-5k),ASP有提升动力且渗透率提升加速(代表公司包括:德赛西威、华阳集团、均胜电子等);

ASP较高且仍将提升+渗透率未开始提速+格局较好-HUD:HUD格局相对分散,但AR-HUD集中度较高(华阳集团、水晶光电、经纬恒润等);

智能驾驶-聪明的车:ADAS(高级辅助驾驶系统)与AD(自动驾驶)

按照系统的能力边界划分-L0-L5:L0不参与车控,仅预警(例如FCW);L1可代替驾驶员执行某些简单操作(通常是单纵向/单横向;例如ACC);L2在特定路况下可以代替驾驶员执行转向/加减速操作(可完成纵向+横向的组合控制),允许手、眼短暂脱离驾驶状态(例如TJA);L3允许驾驶员在特定路况下将车辆操纵完全交由系统执行(例如NOA;点对点自动驾驶);L4、L5、L3的主要区别是ODD(设计运行域cover的范畴);L0-L2为ADAS(辅助驾驶)、L3-L5为AD(自动驾驶);ADAS与AD的核心区别是事故责任是人还是车;

按照场景划分:1)按车速:行车ADAS(所谓前向ADAS)/泊车ADAS/安全功能(比如AEB);2)按道路类型:城区&高速/城区快速路,所谓城市NOA与高速NOA;

传感器&算力平台基本已经标准化:城市NOA目前来看,普遍需要200Tops以上算力平台&激光雷达(部分车型已经选配/去除,例如小鹏AI鹰眼视觉&极越);

智能驾驶:L1/L2主逻辑是国产替代,壁垒相对低;L2.5增速较快,但格局预计相对分散;L2.9天花板最高&增速可观&格局相对好

二、Part2:高阶智驾技术路线的演进

高阶智驾的技术进步:特斯拉引领,国内跟随(从21年的BEV开始,过去3年行业的技术进步在显著加速)

2016年以前:Tesla的感知网络是常规的CNN,通常有多个网络,每个网络处理一个任务(head),例如车道线检测、人物检测与追踪、信号灯检测都有独立网络;

2018年多任务模型引入:感知主干网络Hydra叫九头蛇,这个主干网络能延伸出很多个head(分支任务),感知模型集成度提高;

2020年开始搞前融合:多传感器收集到的数据融合后再形成感知结果(特征级融合)&Transformer框架引入;

2022年引入占用网络/NeRF:BEV框架仍旧需要学习过感知对象的语义信息才能正确识别,占用网络的引入使算法能够感知通用障碍物(把所有感知对象都视作积木拼凑成的乐高,只考虑体积&速度,语义信息的重要性下降),引入NeRF后,模型具备了感知被遮挡物体的脑补能力;

2023/24H1引入端到端,并开始探索世界模型:引入端到端的目的是希望模型从代码驱动转换为数据驱动;探索世界模型是希望模型具有理解泛化规律的能力,提升Zero-shot能力&提高可解释力&提高乘车人对系统的信任感;

高阶智驾的技术进步:Occpuancy解决通用障碍物识别问题

BEV等传统方法划分“可行驶空间”存在一些问题:1)在地面极不平坦的时候,只有2个左右的像素点估计画面深度;2)可变形的障碍物,如两节的挂车/汽车顶上的杂物等,不适合用3Dboundingbox来表示(会被直接视为一个整体);3)不在已知类别中的障碍物,如路上的石子、垃圾等,无法进行分类。

马斯克的第一性原理:世界上没有所谓的静止物体,只要摩擦力够小,任何物体都可以移动,都可能影响可行驶区域。感知系统的任务不是“目标识别+分割”而是3D分割,FixedRectangles(监测框/2D网格)、ObjectDetection(目标识别)、ObjectOntology(具体形状刻画)都是多余的。预测Votel的flow(速度)则是需要额外了解的参数。

核心是解决通用障碍物的识别问题(找到一种更好的方式来描述长尾障碍物):占用网络并非推翻BEV感知的技术基础,而是对BEV网络在高度方向(Z轴)进行了进一步的扩展,从下图的架构中可以看到整体框架在对各个相机进行图像平面特征提取以后,仍旧是接一个Transformer的模块,在图像featuremap中通过MLP生成Value-key,并利用BEV坐标系下栅格坐标的位置编码生成Query,不同的是这次栅格不只是BEV感知中的2D栅格,而是在高度方向又增加了一个维度变成了3D栅格,进而生成了OccupancyFeatures替代了原本的BEVFeatures。

占用网络的输出:OccupancyVolume(通用障碍物的体积)&OccupancyFlow(通用障碍物的速度刻画)。Voxel(3D体素)取代pixel(2D像素),通过预测每个Voxel的流动来预测障碍物的移动轨迹(通过NeRF实现被遮挡物体的3D建模)。特斯拉能做到超过100FPS的速度运行,内存效率非常高。

高阶智驾的技术进步:端到端实现算法从Rule-Based→NN-Based

从V10到V12的端到端过程就是Rule-Based到NN-Based的过程:FSDV10版本已经开始把感知环节依托神经网络实现,但感知空间到向量空间的映射以及规控环节基本还是Rule-based代码主导(规划环节引入了辅助神经网络);FSDV11版本感知环节实现端到端,规划环节与控制环节均引入神经网络辅助;V12版本完全实现从传感器输入到控制指令输出的全流程NN-based。

端到端的难点不仅是车端模型全链路打通,云端训练的数据量要求与标注难度均提升:端到端理论上可以实现完全数据驱动的模型训练(影子模式数据/采集车数据输入/仿真数据→4DClip自动标注系统标注→模型训练→参数调整→重复循环),训练端V12不同V10的点在于标注数据需要为视频帧(4DClip),且需要同时标注感知信息与车控信息,而且完全NN的架构数据需求量也会更大。

端到端NN-Based的核心优点是可以大幅度提高开城效率:不需要靠堆人头的形式针对每个城市的细分场景写代码,车队自监督学习,泛化能力非常强大。FSD如果真入华,成熟速度可能非常快。

高阶智驾的技术进步:目前特斯拉是Level3的端到端,小鹏为代表的国内智驾逐步从level2走向level3

高阶智驾的技术进步:端到端/世界模型的价值&技术进步的方向

端到端的本质还是基于规则,Zero-shot的能力依旧是短板:端到端只是把基于规则的多模块框架转化为可以数据驱动的一体化框架;还是欠缺针对长尾场景的zero-shot能力(从直接遵从规则代码到从海量数据中学习到规则);L4任何的未知场景中用户都不需要接管;数据驱动的end-to-end本质还需要见过这些场景,才能理解,所以还是不能胜任长尾场景;

引入多模态视觉语言模型(VLM)基于比行车场景更广阔的通识知识来补足长尾场景的理解不足:把没办法基于规则去匹配的长尾场景(例如骑着自行车还单手撑伞,然后闯红灯,很难对应上这种特征很复杂场景的规则)先转化为自然语言描述,然后输入多模态LLM,LLM直接给出决策建议;

增加人机交互的信任感&弥补可解释性不足:如果机器决策的流程可以通过文字形式通过车机与乘车人交互,能大大提高系统信任度&模型可解释性;

端到端实际价值:

◆用户体验改善:1)安全性提升(把规则难以表述的场景转变为隐式表达);2)驾驶风格拟人化;

端到端对数据量&仿真测试的要求:

◆数据量/数据质量:1)数据量:FSD训练需要用到上千万个视频片段,假设每个视频片段时长为30~60秒,以此为参考,训练端到端模型最起码需要几万小时的视频数据。目前规模最大的公开数据集包含大约1200小时数据,这意味着,要拿到端到端研发的入场券,自动驾驶公司还必须使用更大规模的非公开数据;2)数据质量:端到端需要的是老司机的驾驶数据,大量驾驶数据达不到老司机水平,仅提取老司机所驾驶的车辆在特定场景下的高质量数据增加了数据获取的难度;3)数据分布:真正能够反映真实世界复杂性的数据,应该针对大量用户在无意识中情况下采集的。更有挑战的问题是,如何调整长尾场景(CornerCase)在训练数据中的分布比例,目前行业还没有一套行之有效的方法论。

◆仿真测试要求:端到端自动驾驶不再区分模块,其测试评估方法需要同时具备真实性和可交互性,开环测试方法无法评估系统偏离人类驾驶员操作后的场景变化,闭环仿真成为实车测试以外最重要的基础工具。闭环仿真工具的研发是端到端上车的必要条件。

高阶智驾的技术进步:世界模型/VLM视觉语言模型旨在实现对通用泛化世界的逻辑理解

特斯拉在CVPR2023展示的更通用世界模型:模型最终目的是希望可以根据过去的场景或者其他事物来预测未来的场景;特斯拉通过轻量化扩散模型(DiffusionModel)试图实现这一点;希望它具有几个性质:①可以基于当前帧的图像预测未来几帧图像;②网络可以在没有新的图像信息情况下持续学习;③可以通过Prompt生成现实中没有的场景;④可以作为神经网络模拟器;⑤不仅能够生成RGB空间图像,还能够生成类似标注的语义信息,这既表明了这项技术有未来被利用在标注数据生成的潜力,也说明了模型将具备一定的对客观世界的理解推演能力。⑥可以做场景泛化;

高阶智驾的技术进步:世界模型理解进阶——智能驾驶的发展是模型时空认知能力的进化过程

智驾模型发展是时空认知能力的进化过程:2D/3D检测:通过box来框出不同对象→BEV:感知域扩大→OCC:包括道路边缘在内的通用障碍物也可以感知→世界模型:想象跟现实一样的另一个平行世界;

世界模型如何推理万千平行世界:1)想象重构:比如基于3s真实视频生成不同场景长视频;2)时空重构需要理解真实世界:物理规律认知+时空一致性,类似Sora(会想象很多个平行世界,最终选择某个似然概率最大的方向);难点:①仍然需要大量数据:类似人的学习过程,某个场景见多了才能更清晰的想象出来:②长视频保持时空一致性需要解决内存&工程化问题;

高阶智驾的技术进步:关于有图&无图-不太可能/也没必要完全无图(拥有基础车道信息的轻量化地图成本合理),图的意义是提升困难场景的通过效率&成功率

特斯拉的FSDLanesNeuralNetwork:需要导航/众包地图提供道路级拓扑信息、导航路线信息、车道数量/车道级拓扑结构及车道类型等等信息(无保护左转的体验与安全性明显提升)。

理想的NPN网络也是变相的地图:采集复杂路口信息训练NPN网络,形成NPN特征库。车端路过采样的路口匹配NPN特征,结合导航信息就能直接知道应该怎么走(在高架、环岛、隧道或地面标识、信号灯等复杂场景通行效率可以大大提升)。

地图类型:SD导航地图、LD(车道级,Lanedatamap,车道级地图))、HD高精地图;

高精地图的问题:1)地图质量:采样点太多且质量要求高;2)鲜度:更新频次要求高(日频);3)泛化:不同城市路网结构差别很大,数据复用难度大;4)成本:假设每公里1k/年的维护成本,10万城市NOA车型保有量车企,在4-5个重点城市覆盖高精地图,年化更新成本10亿级别;无高精地图情况下对车的要求高:车端算力要求高+算法迭代与数据回传+驾驶知识(从感知到认知的变化);

BEV+Transformer范式成熟也需要地图的先验信息:1)比如看到了红绿灯,在没有车道线的时候,到底能不能左转/右转;对于人来说,之前可能来过这个地方,或者经历过类似环境有先验知识,但对于智驾来说,这是比较大的挑战。所以对于交通规则类场景,地图可以给智驾带来帮助(无论有没有地面标线);2)单车感知能力有边界;①冷启动:在没有大量数据的情况下,感知算法的决策需要地图提供先验信息(比如路口的分界点从两个车道变成3个车道,到底选择左1还是左2左3,可能需要一些先验知识)②动态事件:单车智能不能获得超视距信息,没法应对突发道路事件;

HD、SD、LD地图是可以整合使用的,不同车企会有不同决策逻辑:LD地图成本预计是高精地图的20%左右,SD成本更低,LD/SD容易做城市间的泛化;智驾做得好的车企会更大比重的用LD/SD;如果是智驾能力比较薄弱,只是希望在个别车卖得比较好的地区把智驾体验做好,HD反而可能是首选(所谓冷启动阶段);

·钛祺智库·

2、钛祺智库目前已收录1000+篇汽车行业最新技术报告,供行业朋友查阅、参考。

THE END
1.标贝科技:自动驾驶中的数据标注类别分享国内的自动驾驶行业正处于快速发展阶段。伴随随着芯片算力的提升、算法的优化以及数据采集标注传感设备的日益成熟,自动驾驶技术正逐步从实验室转向商业化应用。电车时代的来临,加速了自动驾驶时代的全面降临,23年国内汽车行业内卷的开始,自动驾驶已然成为汽车卖点之一。 https://www.elecfans.com/d/6361180.html
2.聊聊自动驾驶中的自动标注自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式) https://blog.csdn.net/CV_Autobot/article/details/143544667
3.数据标注应用自动驾驶中的九种数据标注人工智能技术的迅速发展已经深刻影响了我们的生活,其中,数据标注在提高AI性能方面扮演着至关重要的角色。在自动驾驶领域,精确的数据标注对于训练车辆自主导航和决策系统尤为关键。接下来,我们将探讨自动驾驶中常见的九种数据标注类型。 首先是车道线标注,它涵盖了道路标线的详细标注,包括区域、分类和语义信息,用于训练车辆https://www.yoojia.com/ask/17-13881018016502078911.html
4.自动驾驶测试方法和流程综述!自动驾驶汽车测试定位测试:测试自动驾驶汽车的定位精度和准确性,如GPS、IMU、视觉定位等。 决策测试:测试自动驾驶汽车的决策系统是否能够正确地分析和处理传感器数据,做出准确的决策,如路径规划、障碍物避让等。 控制测试:测试自动驾驶汽车的控制系统是否能够正确地控制车辆,如转向、加速、制动等。 https://www.jishulink.com/post/1898523
5.深度学习简介:该数据集旨在丰富骑行者的数据,提高自动驾驶算法对骑行者检测的准确度,在此之前还没有推出过专门针对骑行者目标检测的数据集 特征 将近6个小时的视频数据,分辨率为2048×1024 14674帧带标注数据, 32361个标注对象,包括骑行者、行人和其他骑行者 数据集分为部分标注数据集和全部标注数据集。部分标注数据集只包括https://segmentfault.com/a/1190000041583722?utm_source=sf-similar-article
6.Acti数据集:首个全面手动标注的汽车网络安全威胁情报语料库,包含Acti数据集是一个专注于自动驾驶车辆网络安全威胁情报建模的数据集,包含908份真实的汽车网络安全报告,涵盖3678个句子、8195个安全实体和4852个语义关系。 数据集构建 : 构建过程包括数据收集、数据清洗、实体和关系标注以及数据验证等步骤。数据收集自国家数据库和特定车辆威胁情报平台,然后通过BIOES联合标注策略进行标注,https://blog.51cto.com/u_17100449/12663454
7.万字迎合解读:“端到端”,让特斯拉FSDV12迎来质变?其核心就是模型可以通过自然数据自己推理学习因果,不再需要标注,模型整体的泛化能力得到大幅度提升,类似ChatGPT那样,以自回归的方式从上一个场景预测下一个场景。 让我们用更简单的话来讲一下大模型对于端到端的重要性: 目前自动驾驶数据库的价值极低:通常包括两种数据,一种是正常行驶情况,千篇一律,占公开数据约 https://36kr.com/p/2909726822833029
8.一文读懂Tesla数据标注系统Attention!都已经2021年了,L4的自动驾驶都已经开始讨论量产了,中国的空间站都已经上天了,数据标注当然也不再是点点鼠标就OK的了!! 数据标注里面有什么明堂,容我慢慢讲来。做深度学习和计算机视觉的同学可能比较熟悉ImageNet,MS COCO,Cityscapes等著名的公共数据集,这些数据集主要面向于2D图像上的感知任务,也是直接在2Dhttps://www.eet-china.com/mp/a229986.html
9.数据标注平台图像视频标注工具3D点云数据标注倍赛BasicFinder是全栈AI数据及模型解决方案供应商,提供图像采集、数据标注平台以及标注工具软件、模型训导平台、语音数据采集等技术产品。我们将通过精诚服务和技术优势,帮助客户快速完成模型开发与版本迭代。http://basicfinder.com/
10.清华汽研院成功推出国内首个大数据自动标注服务平台AI技术的不断精进将使数据标注在未来产生更大的需求缺口。分析公司Cognilytica 2019年1月的一份报告显示,2018年第三方数据标注市场规模为1.5亿美元,到2023年将增长逾10亿美元。 该自动标注软件不仅适用于ADAS训练、自动驾驶学习、高精度地图建立等技术研究,加速智能网联、自动驾驶等汽车行业热点技术领域发展进程,同时,也http://www.cheyun.com/content/30300