(报告作者:安信证券分析师徐慧雄、李泽)
供给端特斯拉FSDBeta北美渗透率超过22%,商业化拐点将至。算法:从规则主导到神经网络主导,BEV+Transformer确立行业通用感知范式,端到端大模型有望再次引领行业。数据:数据闭环+超算中心造就FSD极致的迭代速度,是特斯拉在自动驾驶上的核心竞争力。硬件:HW4.0版本发布,芯片性能、传感器配置全面升级。
特斯拉FSD(FullSelf-Driving)是在Autopilot的基础上,推出的高阶自动驾驶功能,是特斯拉树立“高端智能化”品牌标签的重要渠道,目前已迭代至V11.4.6。特斯拉于2020年Q3正式发布FSDBeta(测试版)版本,随后在2021年7月特斯拉通过重构后的底层算法,采用纯视觉技术路线初步实现了城市NOA,并针对不良天气影响、无保护左转等Cornercase进行不断的升级优化。从2023年4月发布的FSDBeta11.3版本开始,特斯拉统一了城市NOA与高速NOA的系统架构。根据马斯克在推特上的多次预告,FSDV12将是一次具有历史意义的重要更新,同时称FSDV12将不再是Beta版本。
FSDBeta在北美测试用户已超40万,行驶里程加速提升,我们认为特斯拉FSD商业化拐点将至,智能驾驶付费模式有望彻底跑通。
两个月后,2021年11月FSDBeta测试者的数量大幅提升至1.17万,随后2022年1月/4月/9月测试人数分别达到6万/10万/16万。随着FSDBeta版本持续迭代、系统可靠性不断提升,特斯拉对于获得FSDBeta测试资格的安全评分标准不断放松,根据马斯克的推特,2022年9月对安全评分的要求已放宽至80分。至2022年11月24日,特斯拉向北美地区所有购买FSD用户推送FSDBeta测试功能,标志着FSDBeta在北美进入全面公测,参与测试人数随之大幅提升,截至2022年12月末测试人数达到28.5万。根据特斯拉官方推特,截至2023年3月2日FSDBeta测试人数超过40万,根据Marklines数据,截至2023年2月底,北美特斯拉保有量约为185万,对应渗透率达到22%。(FSD软件需要在HW3.0平台上才可以启动,特斯拉2019Q2之后生产的车辆才搭载HW3.0,但特斯拉可以为老车主将硬件免费升级至3.0平台,因此此处渗透率计算按特斯拉在北美全部的保有量计算)
行驶里程:根据特斯拉2023年二季度业绩说明会,截至2023年6月,FSDBeta累计行驶里程已超过3亿英里。其中,自2023年4月开始FSDBeta累计行程里程加速提升,仅Q2单季度提升约1亿英里,主要系FSD订阅量的上升及从2023年4月开始的V11.3在高速上启用了FSDBeta。需要注意的是,在2023年4月之前,高速场景并未统一到FSDBeta技术栈中。
软件付费:特斯拉FSD具有“期货”属性,自2016年发布以来已经过多轮价格调整,2019年4月激活FSD功能仅需要一次性支付5,000美元,而目前FSD买断价格已上涨至1.5万美元。同时自2021年5月起,FSD同时支持订阅的方式进行购买,基础AP用户订阅价格为99美元/月,已购买加强AP的用户订阅FSD价格为199美元/月。
根据TroyTeslike调研数据,2019年以来随着FSD购买价格逐步上涨及Model3/Y中低端车型成为销售主力,FSD在北美的单季度渗透率有所下滑。随着FSDBeta功能体验逐步完善,2023年下半年以来特斯拉通过对FSD进行有条件优惠等方式扩大用户基数。2023年7月7日特斯拉升级引荐计划,如果用户通过推荐购买Model3/Y,可以免费试用三个月FSDBeta;如果通过推荐购买ModelS/X,可以免费试用六个月。同时,马斯克在推特上表示当FSD达到足够流畅时会在北美向所有用户免费试用一个月,我们认为这或会在FSDV12发布后实现,届时FSD订阅率有望实现跃升,智能驾驶付费彻底跑通。
2.1.2018年之前:从与Mobileye合作到初步尝试自研
2014-2016年间特斯拉与Mobileye深度合作,由Mobileye提供感知算法,主要基于传统机器视觉技术,依靠大量人工手写规则。针对每一类ADAS任务,Mobileye都设计了复杂的机器视觉算法,并且在工程层面进行长期的优化,结合专用芯片,最终达到效率和可靠性的平衡。以Mobileye的经典测距算法为例,它使用前方车辆的车轮和地面接触点作为检测点,在假定地面水平的情况下,利用镜头的焦距f、相机离地距离H、成像高度y等易于测量的数据,可以估算出车辆距离本车的距离。在这一阶段,特斯拉基于Mobileye方案的AP1.0系统陆续实现了车道偏离预警、主动巡航控制、自动变道、自动泊车等功能。
2016年-2017年特斯拉开始逐步探索自研自动驾驶算法。2016年特斯拉和Mobileye合作关系破裂后在硬件端转向英伟达,同时自研软件算法。2016年10月HW2.0量产,而软件层尚未推出,直到2016年12月31日特斯拉发布Autopilot8.0版本,辅助驾驶功能才重新上线,但相比于AP1.0系统功能上出现了明显的回退,至2017年3月推送的8.1版本AP2.0系统基本达到了AP1.0系统的功能体验。
同时,2016-2018年间特斯拉自动驾驶团队构成也发生了多次变化,2016年12月,特斯拉Autopilot原总监SterlingAnderson离职,苹果Swift语言之父ChrisLattner接任,带领AP2.0的研发,但仅半年后Lattner宣布离职。在这一时期特斯拉几乎不对外披露软件算法技术进展,但值得注意的是,2016年底开始特斯拉的vision小组与机器学习小组也开始在技术上为Autopilot的开发提供支持,说明特斯拉已经开始尝试将AI引入自动驾驶的应用中。
2.2.2018年之后:从后融合到特征级融合,大模型赋能下引领行业
2017年6月Andrej加入特斯拉后,主导特斯拉自动驾驶算法从基于传统视觉(规则的方式)向神经网络模型、数据驱动的方向发展。Andrej将传统视觉称之为Software1.0,指实现某一个功能依靠既定代码逻辑,可以理解为给定目标,程序员设定好一条固定达到目标的路径。以数据驱动、依靠神经网络的模型被称为Software2.0,给定目标结果,程序员设定网络框架,通过计算资源搜索程序空间的子集(给定目标值,利用反向传播和梯度下降实现),进而找到这条具体的、最高效的路径。特斯拉自动驾驶算法进化过程是2.0软件逐步“吞噬”1.0软件的过程,从一开始规则主导,部分神经网络辅助;到二者交叉,部分模块神经网络、部分规则,再到神经网络完全主导,用“onemodel”统一全栈。
2.2.1.2018-2019:使用多任务网络提高模型效率,在BEV空间下进行后融合
构建Hytranets多任务网络提高自动驾驶感知模型效率。在2018-2019年期间,行业中应用神经网络完成自动驾驶感知任务的方式是针对单个任务进行网络设计,即一个神经网络结构只对应一个感知任务的实现。自动驾驶中同时存在非常多感知任务(尤其从高速进入城市场景,环境复杂度大幅提升),如果为每一个任务单独设计一个神经网络极其耗费资源。
特斯拉的解决方案是设计一个Hydranets多任务网络,有一个共享的backbone骨干网络,再输出多个任务。这样设计最核心的好处在于节约计算资源,一方面在训练端,针对单个任务进行微调时不需要对共享网络进行重新训练;另一方面在车端进行推理时不同任务共享特征提取结果从而避免重复计算。
在泊车场景下开始应用BEV,采用后融合策略对不同视角进行拼接。2019年10月,特斯拉推出停车场智能召唤功能,可控制车辆离开车位、绕过弯角、进行必要的避障到达所选位置。为实现这一功能,车辆需要找到停车场中的可行驶区域,避免碰到道路边缘。特斯拉在不同视角之下完成了车道线边缘的预测,但车辆无法在2D透视图中完成后续的规划决策,因此需要将8个不同视角下的预测结果“投射”到BEV视角下(此时尚未正式提出BEV的概念,称其为Top-down自上而下的视角)进行拼接,需要特别注意的是,这个拼接过程是用基于数学规则的方式而非神经网络的方式完成的。
2.2.2.2020-2021:特征级融合取代后融合,BEV+Transformer架构下,进入自动驾驶大模型时代
特斯拉利用基于神经网络的特征级融合取代基于规则的后融合,大幅提升感知效果。2020年特斯拉开始研发FSD完全自动驾驶,当自动驾驶从简单的泊车场景向普通城市道路拓展时,后融合的感知结果难以满足要求。一方面基于规则的后融合具有严苛的假设,如地面是完美水平、相机和地面之间不存在相对运动,因此任何的车辆颠簸或者道路有高度变化都会打破这一假设,使得BEV输出的图像面临失真。
同时,由于透视投影,在2D图像中完成不错的感知结果投影到BEV空间中精度很差,若要保证远距离区域的精度,就必须要对每一个像素的深度预测非常准确,而这是难以实现的。为解决这些问题,特斯拉希望能直接利用神经网络输出BEV感知结果,自动驾驶感知融合从后融合走向特征级融合。具体模型框架如下:1)通过Backbone共享骨干网络进行特征提取;2)将不同视角下的2D特征图通过神经网络转换至BEV空间内融合;3)融入时序信息;4)多任务的输出。
2.2.3.2022:升级至Occupancy解决一般障碍物识别问题,LanesNetwork进一步完善地图模型
从BEV升级到占用网络,进一步提升泛化能力。特斯拉在2022年AIDay中展现了OccupancyNetwork感知技术。基本的思想是将三维空间划分成体素voxel(可以理解为微小立方体),再去预测每个voxel是被占用还是空闲,通过0/1赋值对voxel进行二分类:有物体的voxel赋值为1,表示voxel被物体占据;没有物体的voxel被赋值为0。实际中的赋值可以是概率值,表示voxel存在物体的概率。
占用网络感知技术本质上是为了解决更多的长尾问题。纯视觉方案被质疑的一大问题在于对于没有在训练集中出现过的物体,视觉系统则无法识别,比如侧翻的白色大卡车,垃圾桶出现的路中,传统视觉算法无法检测到。占用网络模型的基本思想是“不考虑这个物体到底是什么,只考虑体素是否被占用”,则从根本上避免了这一问题,大幅提升了模型的泛化能力。
Occupancy网络结构与特斯拉2021年AIDay展示的BEV网络结构差异不大,均包括特征提取、利用神经网络进行特征级融合、融入时序信息、多任务的输出四个步骤,事实上Occupancy可以看作是4D的BEV。从网络结构上看差异主要体现在:1)Occupancy模型中进行空间转换时的Query是3D格栅,BEV模型中是2D;2)Occupancy模型可以直接解码出网格的占用情况、速度信息、3维道路曲面参数和语义信息等。
从BEV在线地图升级至矢量地图构建模型LanesNetwork,更有利于下游的规划决策。特斯拉始终坚持无高精度地图的方案,通过车端实时感知+导航地图为下游规划决策提供所需的道路信息,因此特斯拉在线地图的升级方向就是让其提供的信息密度越来越接近高精度地图。高精度地图相比于导航地图定位精度明显提升,并且可以提供车道级的信息(车道线的数量、边缘位置),这一点特斯拉在2021年通过在BEV空间内对车道线进行完整的在线分割和识别已经实现。但除此之外,高精度地图还可以提供道路拓扑结构,即车道线之间的连接关系,特斯拉将地图模型升级至矢量地图就是为了补足这一信息。
特斯拉矢量地图LanesNetwork包含视觉、地图、语义三个模块,利用Transformer生成车道线的关键节点。从网络架构上来说,矢量地图是Occupancy感知网络的一个decoder,将来自感知网络的视觉特征信息、地图的信息整合起来给到语义模块,这里需要特别注意的是特斯拉所采用的地图是其自己绘制的众包地图,而非高精度地图。语义模型框架上类似Transformer中的Decoder,将来自视觉模块和地图模块的所有信息进行编码,类似于语言模型中单词token,再以序列自回归的方式预测节点的位置、属性以及连接关系。
2.2.4.2023:规划决策端应用神经网络,实现“端到端”的自动驾驶模型
特斯拉FSDV12在规划决策端采用AI大模型,更好的处理复杂的交通参与者之间的交互问题,有望实现端到端自动驾驶。在当前自动驾驶模型架构中将驾驶目标划分为感知、决策、执行三个大的模块。目前行业在特斯拉的引领下感知模块均依靠于神经网络实现,但规划决策端依然是基于传统规则,而非神经网络的方式。马斯克在推特上称,特斯拉FSDV12将采用“端到端”模型,输入数据是摄像头采集的到的视频流raw-data,输出数据直接是如方向盘转角多少度的控制决策。可以理解为,除了感知模块,特斯拉在规划决策模块也将采用AI大模型、数据驱动的方式来实现。
如前所述,特斯拉自动驾驶模型从大量的程序员手写规则的Software1.0向基于神经网络的Software2.0迭代,在Software2.0时代下,数据是最为重要的生产资料。我们复盘特斯拉对数据闭环体系的构建可以分为以下两个阶段:1)2016-2019年:首创影子模式,组建千人标注团队,数据闭环体系初步构建;2)2020年-至今:逐步发展至4D自动标注,数据闭环体系趋于完善,Dojo超算中心投产进一步提升迭代速度。
3.1.2016-2019:首创影子模式,数据闭环体系初步构建
特斯拉早在2016年首创影子模式,开始在车端大量收集众包数据,2018年已初步构建了数据闭环体系。一次完整的数据闭环过程分为以下几个步骤:1)从一个初始数据集开始(seeddataset)训练神经网络并部署在车端。2)设计trigger触发机制,回传车端收集到的cornercase(如神经网络结果不准确、司机接入接管等)。3)发现这个cornercase后,写成一个新的trigger发送到车端,让车队回传大量的类似数据集。4)对新得到的数据集进行标注,重新训练。在这一过程中,cornercase的挖掘速度(取决于众包车队的数量以及Trigger触发机制的设计)、对类似场景数据的收集速度、数据标注的速度和质量、训练模型的计算资源共同决定了自动驾驶模型的迭代能力。
特斯拉开创影子模式通过大量众包车辆收集cornercase:在有人驾驶状态下,系统包括传感器仍然运行但并不参与车辆控制,只是对决策算法进行验证——系统的算法在“影子模式”下做持续模拟决策,并且把决策与驾驶员的行为进行对比,一旦两者不一致,该场景便被判定为“极端工况”,进而触发数据回传。同时在2019年特斯拉已经开始搭建仿真平台,但根据TeslaAutonomyDay,彼时特斯拉仿真场景存在雨雾等复杂现实环境难以复原等问题,在自动驾驶模型训练中参与度较低。
组建超过千人的数据标注团队,保证标注质量。神经网络的训练过程需要给定目标结果(即真值),因此对于收集的数据需要进行标注后才可以用于模型的训练。在2016-2019年这个阶段,特斯拉数据标注主要依赖于人工手动标注。特斯拉最早将数据标注外包给第三方团队,但由于外部团队难以及时响应且数据标注质量较低,特斯拉逐步在内部组建了近千人的数据标注团队。同时,在这一阶段训练数据的真值标注是基于2D图像的,即在2D图像上标注出各种物体(车辆、行人、交通标志等)的位置和类别,形式通常是边界框(BoundingBoxes)。
3.2.2020-2023:逐步升级至4D标注,数据闭环体系趋于完善
在初代数据引擎的基础之上,特斯拉升级版数据引擎在标注方案、模拟仿真、云端计算资源三个方面大幅升级,数据闭环系统趋于完善。特斯拉在2022年AIDay上所展示的数据引擎依然按照模型部署->车端影子模式下发现cornercase回传至云端->获得大量相似场景->数据标注后重新训练->再次部署到车端的流程进行,但相比于2019年的初代数据引擎版本,主要在标注方案、模拟仿真、云端计算资源三个方面进行了升级。
3.2.1.从2D人工标注升级至4D自动标注,提升标注效率
从基于图像空间的2D标注升级至BEV空间下的4D标注,大幅提升标注效率。如前所述,对采集的原始数据进行标注来作为神经网络模型的目标结果进行训练。因此训练传统的基于单个摄像头的感知模型,所需要标注的真值仅在2D图像空间中完成即可。而随着感知模型向BEV模型迭代,其所需要的真值需要在BEV空间内完成标注。
特斯拉采用的方法是基于多趟场景重建技术的4D自动标注,具体步骤如下:1)对单个Clip(Clip是Tesla标注系统的最小标注单位,一个Clip通常包含时长为45秒到1min的路段内所有传感器的数据)使用一个神经网络隐式地对路面建模,得到重建结果;2)将包含相同路段所有的Clip进行拼接对齐,完成多趟重建;3)当有新的旅程发生时,就可以进行、几何匹配,得到新旅程车道线的伪真值(pseudolabel)。特斯拉自动标注系统可以取代500万小时的人工作业量,人工仅需要检查补漏。特别需要指出的是,离线自动标注系统同样是大模型,车载感知模型相当于对离线大模型进行蒸馏。
3.2.1.虚拟仿真技术逐步成熟,赋能模型迭代
加入仿真场景,对所采集的cornercase进行泛化,提高模型迭代速度。如前所述,在特斯拉初代数据引擎中,在影子模式之下回传cornercase后,需要再写一个trigger发送到车端让众包车队回传类似场景进行训练。但随着模型不断迭代,cornercase出现的概率逐步降低,某些极端场景往往可遇不可求,等待车队回传真实数据耗时较长,在这种情况下,仿真场景是有效的解决方案。
特斯拉SimulationWorldCreator具体流程如下:1)由经自动标注的真实场景数据中提取隔离带边界、车道线、道路连接信息等来生成路面网格并进行车道线等渲染;2)植物通过丰富的素材库在路间和路旁随机生成植物房屋等来模拟真实世界中这些物体引起的遮挡效应;3)由导航地图提供信号灯、路牌等其他道路元素;4)加入车辆和行人等动态元素。在这一过程中,通过道路街景随机生成以及车道链接关系的随机生成提高了模型的泛化能力。
3.2.1.云端计算资源不断扩充,Dojo超算中心正式投产
Dojo超算中心正式投产,FSD迭代速度有望进一步大幅提升。根据Tesla2021年AIDay,自2019年以来,特斯拉基于英伟达GPU部署的数据中心算力持续提升。2019年8月,特斯拉仅拥有不到1500个GPU,而到了2021年8月,特斯拉用于云端部署的超级计算机已经拥有11544个GPU。此时,特斯拉具有三个计算集群,其中最大的计算集群具有5760个英伟达A100GPU(80GB显存容量),合计1.8EFlops的AI算力。而最小的计算集群具有1752个GPU用于自动标注系统。
与此同时,特斯拉自2019年开始筹备Dojo超算中心项目,在2021年AIDay上正式发布。马斯克表示一方面由于英伟达产能有限,另一方面由于英伟达是通用GPU,并非针对视频训练的专用芯片,因此特斯拉自研训练芯片可以提高训练效率。
根据特斯拉在AIDay2022上公布的数据,与英伟达的A100相比,每一颗D1芯片(配合特斯拉自研的编译器)在自动标注任务中最高能够实现3.2倍的计算性能,而在占用网络任务中最高能够实现4.4倍的计算性能。根据Tesla_AI的官方推特,Dojo超算中心已于2023年7月正式投产,预计2024年2月达到等效于10万个英伟达A100的算力,成为全球前五大计算中心。目前FSDBeta的发版速度为平均20天一次,我们预计随着Dojo超算中心的投产,特斯拉FSD的迭代速度会进一步提升。
4.1.HW4.0版本发布,芯片性能、传感器配置全面升级
特斯拉自动驾驶硬件自2014年逐步从HW1.0迭代至HW4.0,历经核心芯片外采到自研的转变,目前HW4.0已开始量产。复盘特斯拉HW1.0到HW4.0硬件系统配置变化:
Hardware1.0:2014年9月特斯拉推出第一代自动驾驶硬件平台HW1.0,主芯片采用Mobileye的EyeQ3,同时搭配NvidiaTegra3,传感器为1颗摄像头+1颗毫米波雷达+12颗超声波雷达。特斯拉自始坚持视觉为主的方案,反对使用激光雷达这样的高成本传感器,与同样采用视觉方案的Mobileye不谋而合。然而,由于特斯拉和Mobileye在数据归属、合作开发模式等方面存在分歧,同时2016年5月发生的Autopilot交通事故成为二者分手的导火索。
Hardware2.0:与Mobileye分手后,2016年10月特斯拉基于NvidiadrivePX2(该平台由1颗TegraParker芯片和1颗Pascal架构GPU芯片构成)推出HW2.0,算力提升至12Tops(MobileyeEyeQ3算力仅0.256Tops)。传感器方案升级至8个摄像头+1颗前向毫米波雷达+12颗超声波雷达,这一套传感器配置一直保留至HW3.0。2017年7月,特斯拉将HW2.0升级至HW2.5,增加了一颗TegraParker芯片。
Hardware3.0:特斯拉在与英伟达合作的同时,于2016年2月开始组建团队自研自动驾驶芯片,历时三年的研发,特斯拉于2019年4月推出基于TeslaFSDComputer的HW3.0。HW3.0采用双冗余设计,搭载两块FSD1.0芯片,每一块芯片可以独立运算。FSD芯片采用CPU+GPU+ASIC路线:1)CPU:Cortex-A72架构,共有12核,最高运行频率2.2GHz;2)GPU:最高工作频率为1GHz,最高计算能力为0.6TFLOPS;3)NPU:2个NeuralProcessingUnit(NPU),每个NPU可以执行8位整数计算,运行频率为2GHz,单个NPU算力36.86TOPS,2个FSD芯片的总算力为144TOPS。
Hardware4.0:2023年HW4.0已搭载于ModelS/X,相较于HW3.0在传感器配置、SoC性能、内存带宽等方面均有大幅提升。
1)传感器配置:相较于HW3.0,HW4.0所搭载的摄像头数量和精度均有所提升。HW4.0共有12个摄像头接口,其中包括1个备用、1个舱内摄像头,实际10个摄像头用于自动驾驶感知(其中两个前视),摄像头像素或从120万提升至540万。此外,HW4.0预留了4D毫米波雷达的接口。
2)SoC性能提升:FSD2.0芯片CPU内核由12个增加到20,最大运行频率由2.2GHz提高到2.35GHz。NPU核从2个增加到3个(最大运行频率由2GHz提高到2.2GHz),预计域控制器总算力约400-500Tops.
3)内存方案升级:从HW3.0的8颗LPDDR4升级至16颗GDDR6,内存容量从16GB提升至32GB,最大内存带宽从68GB/s大幅提升至224GB/s。
4.2.Transformer大模型要求自动驾驶芯片具有更强的计算能力
Transformer+BEV自动驾驶大模型的应用推动车端算力需求提升。车端算力用于量产车上自动驾驶模型推理的过程,可以理解为将训练好的自动驾驶模型部署在车端,自动驾驶汽车实时采集的图像输入到训练好的模型中,依据模型参数算出结果的过程。自动驾驶算法向大模型迭代,参数量大幅提升;同时,随着摄像头精度提升、多传感器融合方案从后融合走向特征级融合,数据量大幅提升,以上因素共同作用使得对车端算力需求提升。根据罗兰贝格的预测,L3对算力的需求是L2的10倍。
相比于CNN,Transformer模型对芯片浮点计算能力提出更高的要求。传统AI芯片主要针对CNN模型设计,常使用INT8量化操作(将网络中的参数和计算从高精度转换到低精度)以此来减少存储和计算的开销。
CNN模型中的主要操作是卷积运算和激活函数,对精度的要求较低。在卷积运算中使用一个小的卷积核在输入图像上滑动并进行元素相乘后相加的运算,如果将输入和卷积核都量化到较低的精度(例如INT8),在整体的卷积运算中,误差会相互抵消,对最后的结果影响并不大。激活函数通常为分段线性函数,对输入的数值精度同样不敏感。
4.3.Transformer大模型驱动自动驾驶芯片内存方案升级
存储芯片种类较多,主要分为易失性存储器(VolatileMemory)和非易失性存储器(NonvolatileMemory)两大类。根据断电后数据是否丢失,存储芯片可以分为易失型存储和非易失型存储两大类。其中易失性存储器断电后数据丢失,但使用寿命较长且读写速度较快,通常作为CPU、GPU等算力芯片的内存,主要包括SRAM、DRAM等。虽然SRAM带宽较高、存取速度较快,但SRAM价格较高,不适合大规模用于车载领域。DRAM则分为DDR、图形DDR(GDDR)和低功耗移动DDR(LPDDR)三大类,其中LPDDR适合用于对面积和功耗较为敏感的移动和汽车应用。
自动驾驶感知模型从CNN小模型向Transformer大模型迭代过程中,对内存的消耗大幅提升。自动驾驶算法模型对DRAM的需求主要来自于三个方面:1)传感器传输的数据,随着摄像头精度的提高,增加内存的需求;2)模型参数(权重矩阵),每一次模型的运算都需要从DRAM中加载权重矩阵,模型参数越大,对内存要求越大;3)储存模型计算的中间结果。相比于CNN,Transformer模型在以上三个方面均对内存的需求更高。
传感器:单个摄像头的带宽需求=像素数×帧率×颜色深度(每个像素需要多少位来表示),在假设帧率和颜色深度不变的情况下,单个摄像头从200万像素升级到800万像素,对带宽的要求提升4倍。
模型参数:对于深度学习模型来说大部分的空间由参数占据,在车端模型推理过程中的每一次前向传播都需要将模型参数从内存中加载到计算单元中,随着模型参数量的增加,对内存的需求大幅增加。根据佐思汽研数据,传统的目标检测模型尺寸大小通常只有20MB,而应用于自动驾驶中的Transformer模型参数至少在11亿以上,即1.1GB的权重模型。
储存中间结果:在Transformer的自注意力机制中,输入序列的每个元素都需要与其他所有元素进行比较以计算注意力权重。这实际上是在生成一个注意力矩阵,其中第i行和第j列的元素表示第i个元素对第j个元素的注意力权重。因此,对于一个含有n个元素的输入序列,需要生成一个n×n的矩阵来保存这些权重。这意味着这对针对中间结果的存储空间的需求增长与输入序列的平方成正比。而对于CNN模型,其卷积操作一般只涉及到输入数据的局部区域,所需存储空间相对较小。
内存的访问速度成为限制芯片有效算力的瓶颈。由于存储器和处理器的工艺不同,二者的性能差距越来越大。存储器受益于制程技术的进步,每18-24个月,集成电路上可容纳的晶体管数量就会翻倍;然而,内存的速度提升则主要依赖于电荷存储和访问技术,其进步速度要慢得多。梳理过去20年芯片算力及内存参数发现,硬件的峰值计算能力增加了90,000倍,但是内存/硬件互连带宽却只是提高了30倍。
为解决内存墙问题,自动驾驶领域所采用的内存类型从LPDDR4/LPDDR5向GDDR6发展。
如前所述,LPDDR凭借低功耗优势成为自动驾驶领域的主流内存方案。如特斯拉HW3.0中搭载8颗镁光的LPDDR4芯片(单SoC配4颗),单颗内存容量为2GB、域控平台总内存容量为16GB。同时,若按照LPDDR4最高频率4266MHZ的速率计算,每颗32位的位宽,则单SoC总传输带宽=4266MHZ(频率)*32(位宽)*4(单SoC有四颗LPDDR4)÷8=68.25G/S。
随着自动驾驶从CNN小模型向Transformer大模型迭代,驱动自动驾驶芯片采用更高性能的内存方案,特斯拉HW4.0首次将GDDR6应用在车载中。GDDR6是一种用于图形处理器(GPU)和其他高性能计算应用的高带宽内存技术,满足高吞吐量内存的需求。特斯拉HW4.0搭载了16颗GDDR6(单SoC配备8颗),域控平台总内存容量升级至32GB、单SoC对应的理论最大带宽提升至224GB/s。根据佐思汽车数据,特斯拉HW4.0搭载的16颗GDDR6芯片,总成本约160美元;而HW3.0搭载8颗LPDDR4芯片,总成本仅约28美元。
你的汽车电瓶只能用3年,老司机却能用8年,修车工告诉你如何做!
发动机故障率最高的三款车,普通人最好别买,油耗高,质量差!
气场超大G,五菱硬派SUV谍照曝光,网友:坐等量产!
开车上高速跑长途,一定要检查车上这3个地方,真的是太重要了
开手动挡车“给油起步”还是“怠速起步”?很多新手车主不了解
大众途观新车照泄露,外观大变,内饰对标奥迪A6,价格成最大惊喜
使用了20年的车,跑了30万公里如此完美车况!车主是怎么做到的?
建议大家不要买这款合资车,油耗高,发动机质量更是差到顶点
变天了!9月燃油MPV销量榜,别克GL8丢冠,传祺M8第3,库斯图第16