5W字一文带你看懂自动驾驶主流芯片及平台架构汽车频道

零部件成本下降、中低端车竞争加剧,推动ADAS渗透率在中国市场快速提升,自主品牌ADAS装配量大幅提升

零部件成本下降、中低端车竞争加剧,推动ADAS渗透率在中国市场快速提升,自主品牌ADAS装配量大幅提升。5年前在一些高端车型上才有ADAS功能。2015年以来,电子器件成本不断下降,消费者倾向于选择安全性能更高的、配备智能驾驶辅助功能的汽车。现在中低端车型,尤其是自主品牌,ADAS的装配率已经越来越高了,尤其是FCW前方碰撞预警系统、AEB自动紧急制动系统、ACC自适应巡航、LDW车道偏离预警系统、DMS疲劳驾驶预警系统等多项功能装配率不断提高。

ADAS的渗透率快速提升来自于几方面动力:

2)CNCAP把一些基本的ADAS功能如AEB放入评价体系也在客观上有力推动了这些功能的普及;

3)中低端车竞争加剧,造成主流合资和自主品牌的重点车型上ADAS功能的搭载率甚至超过了一些在华销售的高端品牌车型。

预计未来中国市场智能驾驶辅助功能的渗透率将持续快速提升,中低端汽车配置的智能驾驶辅助功能项目将逐步增多。根据StrategyAnalytics预测ADAS功能在我国乘用车中渗透率将从2019年的不到20%提高至70%以上;自动泊车目前车型渗透率较低,未来提升空间较大。根据汽车之家大数据统计,30万以下车型渗透率远不足20%,预计2025年可以达到50%左右的渗透率。

1、自动驾驶组成和主要技术简介

感知层:主要由激光雷达、摄像头、高精度地图、IMU/GPS等部分构成,主要负责搜集车身周边信息;

决策层:以感知信息数据为基础,根高算力的计中心获取经过优化的驾驶决策;

执行层:基于决策层给出的驾驶决策,对制动系统、发机转向等控下达指令,负责驾驶执行;

不用于智能座舱是按照Tier1和tier2来分产业链,自动驾驶的技术层级来分的产业链,这样相对于比较清晰一些。

超声波雷达系统电装、松下、村田;

车联网服务平台联通智网、中移智行、九五智驾、四维智联;

执行层控制方案整合安波福、日本电装、博世;

自动驾驶组成和主要技术简介

从自动驾驶各个研发环节来看,主要涉及到软件工程&硬件工程:

1)软件工程:

操作系统、

基础软件(基础库、分布式、核心服务)

算法设计(定为、感知、规划)

工程实现(FCW、LDW等)

云服务(仿真、高精度地图)

高精度地图

2)硬件工程:

域控制设计(硬件架构、计算单元、功能安全)

传感器(激光雷达、毫米波雷达、超声波雷达、摄像头、GPS、IMU等)

系统集成、线控改造。

供应链上游:CPU芯片

半导体、能源革命驱动的此轮汽车智能化、电动化浪潮,半导体格局反应产业链格局

座舱芯片:高通算力高、集成度高、性价比高,份额提升明显。

自动驾驶芯片

封闭生态战胜开放生态

L3+:英伟达>高通>华为

智能汽车芯片目前主要变化出现在座舱域、辅助驾驶/自动驾驶两大域控制器上。

自动驾驶域控制器为电子电气架构变化下新产生的一块计算平台,目前占主导的是英特尔Mobileye和英伟达,高通、华为重点布局领域,同时也有地平线、芯驰科技等创业企业参与。

算法升级:目前硬件模块升级相对较慢,算法迭代升级则日新月异,持续优化的算法有助于降低成本,并提供更多的安全冗余

运从量产级别来看,近期量产的车型主要集中在L2+至L3级别车辆;

自动驾驶适用场景中,如果是封闭路段,普遍需要高精度地图,开放路段中使用范围较小。

自动驾驶对于算力的要求

智能驾驶汽车涉及到传感器环境感知、高精地图/GPS精准定位、V2X信息通信、多种数据融合、决策与规划算法运算、运算结果的电子控制与执行等过程,此过程需要一个强劲的计算平台统一实时分析、处理海量的数据与进行复杂的逻辑运算,对计算能力的要求非常高。

根据地平线数据披露,自动驾驶等级每增加一级,所需要的芯片算力就会呈现十数倍的上升,L2级自动驾驶的算力需求仅要求2-2.5TOPS,但是L3级自动驾驶算力需求就需要20-30TOPS,到L4级需要200TOPS以上,L5级别算力需求则超过2000TOPS。

每增加一级自动驾驶等级算力需求增长一个数量级,根据Intel推算,全自动驾驶时代,每辆汽车每天产生的数据量高达4000GB。为了更好的智能驾驶表现,计算平台成为汽车设计重点,车载半导体价值量快速提升,汽车行业掀起算力军备竞赛。以行业龙头特斯拉为例,近日媒体报道,特斯拉正与博通合作研发新款HW4.0自动驾驶芯片,预计明年第四季度就将大规模量产,新一代芯片采用7nm工艺。预计HW4.0算力有望达到432TOPS以上,超过HW3.0的三倍以上,将可用于ADAS、电动车动力传动、车载娱乐系统和车身电子四大领域的计算,成为真正的“汽车大脑”。我们来看看主流的自动驾驶芯片的算力。

这里是量产的自动驾驶芯片的算力做的对比,英伟达最新的orin的算力秒杀全场,但是还没有量产,目前看到的特斯拉单芯片算力是量产里面最强算力的,达到72TOPS。

感知类算法,包括SLAM算法、自动驾驶感知算法;决策类算法包括自动驾驶规划算法、自动驾驶决策算法;执行类算法主要为自动驾驶控制算法;

涉及到的操作系统以Linux为主,编程语言包括C/C++/PYHTON/MATLAB等;

传感器融合技术:

单一类型传感器无法克服内生的缺点,我们需要将来自不同种类传感器的信息组合在一起,将多个传感器获取的数据、信息集中在一起综合分析以便更加准确可靠地描述外界环境,提高系统决策的正确性,比如典型的激光雷达+摄像头+IMU+高精度地图组合。

前融合算法:在原始层把数据都融合在一起,融合好的数据就好比是一个超级传感器,而且这个传感器不仅有能力可以看到红外线,还有能力可以看到摄像头或者RGB,也有能力看到liDAR的三维信息,就好比是一双超级眼睛,在这双超级眼睛上面,开发自己的感知算法,最后输出一个结果层的物体。

后融合算法:每个传感器各自独立处理生成的目标数据,当所有传感器完成目标数据生成后,再由主处理器进行数据融合

路端/云端:可以用于数据存储、模拟、高精地图绘制以及深度学习模型训练,作用是为无人车提供离线计算及存储功能,通过云平台,我们能够测试新的算法、更新高精地图并训练更加有效的识别、追踪和决策模型。同时可支持全局信息存储和共享,互联互通业务流,对自动驾驶车实行路径优化。

智能驾驶时代,汽车数据处理量大幅增加,对芯片性要求更高,AI芯片为主

数据、算力和算法是AI三大要素,CPU配合加速芯片的模式成为典型的AI部署方案,CPU提供算力,加速芯片提升算力并助推算法的产生。常见的AI加速芯片包括GPU、FPGA、ASIC三类。

GPU是单指令、多数据处理,采用数量众多的计算单元和超长的流水线,主要处理图像领域的运算加速。但GPU无法单独工作,必须由CPU进行控制调用才能工作。CPU可单独作用,处理复杂的逻辑运算和不同的数据类型,但当需要大量的处理类型统一的数据时,则可调用GPU进行并行计算。

FPGA适用于多指令,单数据流的分析,与GPU相反,因此常用于预测阶段,如云端。FPGA是用硬件实现软件算法,因此在实现复杂算法方面有一定的难度,缺点是价格比较高。对比FPGA和GPU可以发现,一是缺少内存和控制所带来的存储和读取部分,速度更快。二是因为缺少读取的作用,所以功耗低,劣势是运算量并不是很大。结合CPU和GPU各自的优势,有一种解决方案就是异构。

ASIC是为实现特定要求而定制的专用AI芯片。除了不能扩展以外,在功耗、可靠性、体积方面都有优势,尤其在高性能、低功耗的移动端。

类脑芯片架构是一款模拟人脑的新型芯片编程架构,这一系统可以模拟人脑功能进行感知、行为和思考,简单来讲,就是复制人类大脑。

不同应用场景AI芯片性能需求和具体指标

AI芯片部署的位置有两种:云端和终端。云端AI应用主要用于数据中心,在深度学习的训练阶段需要极大的数据量和大运算量,因此训练环节在云端或者数据中心实现性价比最高,且终端单一芯片也无法独立完成大量的训练任务。

从功能上来说,目前AI芯片主要有两个领域,一个是AI系统的training训练模型(主要是对深度神经网络的前期训练),另外一个是模型训练部署后,模型对新数据的inference推断。理论上来说training和inference有类似的特征,但是以目前的情况来说,在运算量差别大,精度差别大,能耗条件不同和算法也有差别的情况下,training和inference还是分开的状态。

在training领域,需要将海量的参数进行迭代训练,所以芯片设计导向基本都是超高性能,高灵活性,高精度这几个方向。面向training的芯片一般都是在云端或者数据中心进行部署,成本大,能耗高。目前在training领域,Nvidia的GPU在市场上独占鳌头,大部分的深度神经网络及项目实施都是采用Nvidia的GPU加速方案。同样深度学习加速市场的爆发也吸引了竞争者的入局。

Google在2015年发布了第一代TPU芯片,在2017年5月发布了基于ASIC的TPU芯片2.0版本,二代版本采用了systolicarray脉动阵列技术,每秒峰值运算能力达到45TFlops。并且二代版本完善了初代TPU只能做inference无法training的问题。根据Google的披露,在自然语言处理深度学习网络中,八分之一的TPUPod(Google自建的基于64个TPU2.0的处理单元)花费六个小时就能完成32块顶级GPU一整天的训练任务。

除了Google外,AMD也发布了基于RadeonInstinct的加速器方案,Intel则推出了XeonPhi+Nervana方案。在training领域,资金投入量大,研发成本高,目前竞争者主要是NvidiaGPU,GoogleTPU和新进入的AMDRadeonInstinct(基于GPU)和IntelXeonPhi+Nervana(基于ASIC)等。目前来看,不管是Google的TPU+tensorfow,还是其他巨头新的解决方案,想要在training端市场撼动Nvidia的地位非常困难。

相比training而言inference在计算量(更小),精度要求(更低)和算法部署(多种evaluation方法)上都有一定的差别,通常只需要用training阶段训练好的模型来对新输入的数据输出模型结果,或者在输出结果的基础上做一些调整。比如摄像头拍到的新的人像直接输出人脸识别模型的结果,就是利用training好的模型做一次inference操作。相对training,inference比较适合在终端部署。

如iphoneX搭载的新的A11处理器内置了双核神经网络引擎,还有类似的在自动驾驶,监控摄像头,机器人等终端设备上的inference芯片。从CPU到GPU,再到FPGA和最后的ASIC,计算效率依次递增,但灵活性也是依次递减的。在inference方面,除了GPU之外,ASIC和FPGA都有比较大的潜力。

目前业界在inference方面也越来越多地开始使用专用性更强的FPGA和ASIC平台。FPGA全称“可编程门阵列”,通过在芯片内集成大量基本的门电路,允许用户后期烧写配置文件来更改芯片功能实现可更改半定制化。FPGA在延迟和功耗方面都有显著优势,在延迟需求较高比如语音识别和图像识别方面相比GPU而言是一个更好的选择。

汽车主控芯片结构形式也由MCU向SOC异构芯片方向发展。

现阶段用于汽车决策控制芯片和汽车智能计算平台主要由三部分构成:

1)智能运算为主的AI计算单元;

2)CPU单元;

3)控制单元。

3、车载AI芯片未来会非线性增长

随着自动驾驶渗透率快速提升,预计车载AI芯片市场规模超过手机侧AI芯片规模。随着智能化对算力需求的指数级增长,ADAS功能逐步成为智能汽车标配,预计到2025年70%的中国汽车将搭载L2-L3级别的自动驾驶功能。观研天下预测全球自动驾驶汽车上的AI推理芯片,其市场规模将从2017年的1.42亿美元,年均增长135%至2022年的102亿美元,相比之下手机侧AI芯片市场规模为34亿美金,汽车AI芯片市场规模远超手机侧。

部署于边缘的AI芯片/内置单元的市场规模占比将从2017年的21%,上升到2022年的47%。其年均增速123%,超过云端部署年均增速的75%。GPU市场份额将从2017年的70%下降到2022年的39%,其主要增长动力将从数据中心算法训练,转移到自动驾驶汽车。

早期对外采购mobileyeEyeQ3芯片+摄像头半集成方案,主要是为了满足快速量产需求,且受制于研发资金不足限制;

中期采用高算力NVIDIA芯片平台+其他摄像头供应商的特斯拉内部集成方案,mobileye开发节奏无法紧跟特斯拉需求;

为了掌握自动驾驶话语权,同时并掌握核心数据和AI算法,过去5年特斯拉经历了外购主控芯片到自研的道路。2014年~2016年,特斯拉配备的是基于MobileyeEyeQ3芯片的AutoPilotHW1.0计算平台,车上包含1个前摄像头+1个毫米波雷达+12个超声波雷达。2016年~2019年,特斯拉采用基于英伟达的DRIVEPX2AI计算平台的AutoPilotHW2.0和后续的AutoPilotHW2.5,包含8个摄像头+1个毫米波雷达+12超声波雷达。

2017年开始特斯拉开始启动自研主控芯片,尤其是主控芯片中的神经网络算法和AI处理单元全部自己完成。2019年4月,AutoPilotHW3.0平台搭载了TeslaFSD自研版本的主控芯片,这款自动驾驶主控芯片拥有高达60亿的晶体管,每秒可完成144万亿次的计算,能同时处理每秒2300帧的图像。

4、特斯拉的FSDHW3.0基本介绍

特斯拉Model3自研“中央-区EEA”架构:中央计算机是自动驾驶及娱乐控制模块(Autopilot&InfotainmentControlModule),由两块FSD芯片承担大量的数据计算,主要服务于自动驾驶功能。两个区控制器分别是右车身控制器(BCMRH)和左车身控制器(BCMLH),主要服务于热管理、扭矩控制、灯光等功能。

FSD的HW3.0由两个相同的计算单元构成,每个计算单元上面有特斯拉自研的2块FSD计算芯片,每块算力位36Tops,设备总算力位4x36Tops=144Tops。但是由于采用的是双机冗余热备的运行方式,实际可用的算力为72Top。

特斯拉板子的右侧接口从上到下依次是FOV摄像头、环视摄像头、A柱左右摄像头、B柱左右摄像头、前视主摄像头、车内DMS摄像头、后摄像头、GPS同轴天线。左侧从上到下依次是第二供电和I/O接口(车身LIN网络等),以太网诊断进/出、调试USB、烧录、主供电和I/O(底盘CAN网络等)。

而通过特斯拉在售车型的介绍和实际配置来看,主张以摄像头视觉为核心的特斯拉安装了一个三目摄像头、4个环视、一个后置摄像头、车内DMS摄像头、前置毫米波雷达、以及12颗超声波雷达。

HW3.0PCB器件介绍

LPDDR全称是LowPowerDoubleDataRateSDRAM,是DDRSDRAM的一种,又称为mDDR(MobileDDRSDRM),是目前全球范围内移动设备上使用最广泛的“工作记忆”内存。特斯拉的LPDDR4(8BD77D9WCF)是Micron美光供应。

FSD的GPS模块是NEO-M8L-01A-81,水平精度圆概率误差(英文简称CEP-CircularErrorProbable)为2.5米,有SBAS辅助下是1.5米,接收GPS/QZSS/GLONASS/北斗,CEP和RMS是GPS的定位准确度(俗称精度)单位,是误差概率单位。冷启动26秒,热启动1秒,辅助启动3秒。内置简易6轴IMU,刷新频率20Hz,量大的话价格会低于300元人民币。

UFS(UniversalFlashStorage)采用THGAF9G8L2LBAB7,Toshiba2018年中期量产的新产品,车规级标准UFS,AEC-Q1002级标准,容量32GB,由于特斯拉的算法模型占地不大倒也够用。

MAX20025S是开关型电源稳压器,给内存供电的,来自MaximIntegrated,目前查不到更多的介绍资料。

S512SD8H21应该是Boot启动,由Cypress(已被Infineon收购)供货。

特斯拉用了3片TI的FPD-LINK,也就是解串器芯片,解串器芯片都是配对使用,加串行一般在摄像头内部,解串行在PCB上。两片DS90UB960,与其对应的可以是DS90UB953-Q1,DS90UB935-Q1,DS90UB933-Q1,DS90UB913A-Q1。DS90UB960拥有4条Lane,如果是MIPICSI-2端口,每条Lane带宽可以从400Mbps到1.6Gbps之间设置。

上图为TI推荐的DS90UB960的典型应用示意图,即接4个200万像素帧率30Hz的YUV444数据,或者4个200万像素帧率60Hz的YUV420数据。DS90UB954是DS90UB960简化版,从4Lane减少到2Lane,与之搭配使用的是DS90UB953。

由于大部分摄像头的LVDS格式只能用于近距离传输,因此摄像头都要配备一个解串行芯片,将并行数据转换为串行用同轴或STP传输,这样传输距离远且EMI电磁干扰更容易过车规。目前行业内做解串行芯片用的较多的就是德州仪器TI以及Maxim,特斯拉用的是德州仪器,而我们做开发接触的较多的是Maxim,可能是源于NVIDIA的AI芯片平台设计推荐,目前智能驾驶方面用的摄像头大部分都是Maxim方案。

(摄像头的数据格式通常有RAWRGB、YUV两种。YUV常见的有三种级YUV444,YUV422和YUV420。计算带宽的公式是像素*帧率*比特*X,对RAWRGB来说X=4,比如一款摄像头输出30Hz,200万像素,那么带宽是200万x30x8x4,即1.92Gbps。YUV444是像素X帧率X比特X3,即1.44Gbps,YUV422是像素X帧率X比特X2,即0.96Gbps,YUV420是像素X帧率X比特X1.5,即0.72Gbps。ADAS通常对色彩考虑不多,YUV420足够。除车载外一般多采用YUV422。)

5、特斯拉自动驾驶主芯片详细讲解

中央处理器是1个12核心ARMA72架构的64位处理器,运行频率为2.2GHz;图像处理器能够提供0.6TFLOPS计算能力,运行频率为1GHz;2个神经网络处理器运行在2.2GHz频率下能提供72TOPS的处理能力。为了提升神经网络处理器的内存存取速度以提升计算能力,每颗FSD芯片内部还集成了32MB高速缓存。

NPU的总功耗为7.5W,约占FSD功耗预算的21%。这使得它们的性能功率效率约为4.9TOPs/W,特斯拉在芯片设计方面充分考虑了安全性,一块典型的自动驾驶电路板会集成两颗TeslaFSD芯片,执行双神经网络处理器冗余模式,两颗处理器相互独立,即便一个出现问题另一个也能照常执行,此外还设计了冗余的电源、重叠的摄像机视野部分、各种向后兼容的连接器和接口。

信号传输流程:

从摄像头的图像开始,根据数据流向,特斯拉解释了整个过程。首先,数据以每秒25亿像素的最大速度采集输入,这大致相当于以每秒60帧的速度输入21块全高清1080P屏幕的数据。这比目前安装的传感器产生的数据多得多。这些数据然后进入我们前面讨论的DRAM,这是SoC的第一个也是主要瓶颈之一,因为这是处理速度最慢的组件。然后数据返回到芯片,并通过图像信号处理器ISP,每秒可以处理10亿像素(大约8个全高清1080P屏幕,每秒60帧)。这一阶段芯片将来自摄像头传感器的原始RGB数据转换成除了增强色调和消除噪音之外实际上有用的数据。

使用的是车载龙头镁光的LPDDR4,具体型号是8BD77D9WCF8表示年份2018,B表示第4周,D代表D-Die,属于镁光产品线中性能相对一般的型号,77分别代表芯片生产地和封装地,7代表中国台湾(5代表中国大陆)。所以,这是一颗美光2018年第二周生产的D-Die颗粒)D9WCF对应型号为MT53D512M32D2DS-046AAT。53代表这是一颗LPDDR4颗粒;D代表1.1V的工作电压;512M表示单颗颗粒的容量为512MB;32表示单颗粒位宽为32bit。

按照容量计算单颗芯片是=512MBX32÷8=2GB,使用量是4颗,所以DDR的总容量是8GB。

按照LPDDR4最高频率4266MHZ的速率计算,每颗DDR是32位的位宽,CPU的位宽是32X4=128bit,此时DDR的带宽=4266MBX128÷8=68.25G/S。

我们再来看看目前的特斯拉的信号传输流向。

可以看到,传输速度远远大于8颗摄像头采集的图像数据,传输速度不是瓶颈,ISP的处理速率是10亿像素/秒,如果是RGB888的位深,此时的数据量应该是2.78GB/S,此处的LPDDR4的带宽是68GB/S,目前单独处理图像是够的。这里说内存带宽可能是未来限制自动驾驶的瓶颈,原因是要处理很多除了图像以外的数据,比如雷达,多线程多应用的数据。

自动驾驶对于DDR带宽的要求:

上图是目前比较主流的L3+自动驾驶的架构,从这里可以看到,摄像头那部分的处理需要的DDR的带宽是34GB/s,ASIC的DDR带宽为64bit,ADAS需要处理摄像头的rawdater,这样才是最原始的数据,不是压缩,也没有处理过的数据,这样ADAS处理起来才比较灵活,所以ADAS的带宽要求非常高。

可以看到除了要处理高清摄像头的rawdater的数据,还需要处理超声波雷达和激光雷达的数据,这些传感器的作用是不同的,激光雷达主要用于3D建模、超声波雷达用于倒车、超车,摄像头主要用于部分ADAS功能,比如ACC自适应巡航、AEB紧急制动等等。

由于这些传感器的数据量非常大,处理的要求也比较高,所以对于ADASCPU的DDR的带宽要求非常高,需要使用到4颗32bit的LPDDR5,同时需要CPU的DDR带宽为128bit,同时带宽需要达到102.4GB/s,也许你会有疑惑,为什么特斯拉的才68GB/s的带宽就可以处理了呢?

特斯拉由于成本原因,没有使用激光雷达,下图是特斯拉车身上不同版本的硬件的传感器,AP3.0的硬件使用了6个摄像头,12个超声波雷达,1个毫米波雷达。由于算法做的非常牛掰,一样的可以使用超声波雷达+摄像头进行3D数据建模。所以性能更优,成本更少,而且对于DDR的带宽要求也下降了。

6、特斯拉NPU介绍

上图的型号处理过程中,该过程的第一步是将数据存储在SRAM阵列中。现在很多人——甚至是那些对计算机组件略知一二的人——可能会想,“SRAM到底是什么?”嗯,最接近的比较是在计算机处理器上能找到的共享L3缓存。这意味着什么呢?这意味着存储速度非常快,但同时也很贵。

目前,Intel最大的L3缓存是45MB(2010年以前是16MB,2014年以前是24MB)。大多数消费级笔记本电脑和桌面处理器都有8-12MB的L3缓存。特斯拉的神经网络处理器有一个庞大的64MBSRAM,它被分成两个32MB的SRAM段来支持两个神经网络处理器。特斯拉认为其强大的SRAM容量是其相对于其他类型芯片的最大优势之一。

假设此时你车上的AI图像算法是YOLO-V3,它是一种使用深度卷积神经网络学得的特征来检测对象的目标检测器,直白点就是照片识别器,在机场地铁都有批量使用,就是大量的卷积、残差网络、全连接等类型的计算,本质是乘法和加法。对于YOLO-V3来说,如果确定了具体的输入图形尺寸,那么总的乘法加法计算次数是确定的。比如一万亿次。(真实的情况比这个大得多的多),用算力表示就是TOPS为单位。那么要快速执行一次YOLO-V3,就必须执行完一万亿次的加法乘法次数。

这个时候就来看了,比如IBM的POWER8,最先进的服务器用超标量CPU之一,4GHz,SIMD,128bit,假设是处理16bit的数据,那就是8个数,那么一个周期,最多执行8个乘加计算。一次最多执行16个操作。这还是理论上,其实是不大可能的。

那么CPU一秒钟的巅峰计算次数=16*4Gops=64Gops,当然,以上的数据都是完全最理想的理论值。因为,芯片上的存储不够大,所以数据会存储在DRAM中,从DRAM取数据很慢的,所以,乘法逻辑往往要等待。另外,AI算法有许多层网络组成,必须一层一层的算,所以,在切换层的时候,乘法逻辑又是休息的,所以,诸多因素造成了实际的芯片并不能达到利润的计算峰值,而且差距还极大,实际情况,能够达到5%吧,也就3.2Gops,按照这个图像算法,如果需要执行YOLO-V3的计算,1W除以3.2=3125秒,也就是那么需要等待52分钟才能计算出来。

此时我们在回过头来看看高通820A芯片的算力,CPU的算力才42K,刚刚那个是基于最先进的服务器IBM的POWER8CPU计算力是是3.2GPOS,车载算的上最先进的域控制器才42K的CPU计算力,所以不能用于AI的计算。此时需要使用GPU来计算,看看GPU的算力是320Gops,此时算这个YOLO-V3图像识别的算法需要32秒,这个成绩还是非常不错的。

此时可以看到高通820A芯片的CPU算力是不能够用于AI的计算,GPU的算力是可以满足一些不需要那么实时性比较高的一些AI处理。

此时再来看看特斯拉的NPU,这个只需要13.8ms就可以计算出来了,按照80KM/h的速度,这个响应速度在0.3米,完全是杠杠的,实际情况下应该没有那么快,因为运算速度没有那么快。

神经网络处理器是一个非常强大的工具。很多数据都要经过它,但有些计算任务还没有调整到适合神经网络处理器上运行,或者不适合这种处理器。这就是GPU的用武之地。该芯片的GPU(每辆特斯拉都有)性能适中,运行速度为1GHz,能够处理600GFLOPS数据。特斯拉表示,GPU目前正在执行一些后处理任务,其中可能包括创建人类可以理解的图片和视频。然而,从特斯拉在其演示中描述的GPU的角色来看,预计该芯片的下一次迭代将拥有一个更小的GPU。

还有一些通用的处理任务不适合由神经网络处理器处理、而由CPU来完成的。特斯拉解释说,芯片中有12个ARMCortexA7264位CPU,运行速度为2.2GHz。尽管这样——更准确的描述应该是有三个4核cpu——特斯拉选择使用ARM的CortexA72架构有点令人费解。CortexA72是2015年的一个架构。从那以后,A73,A75,甚至几天前A77架构已经发布。埃隆和他的团队解释说,这是他们两年前开始设计芯片时就有的东西。

对于Tesla来说,这可能是一个更便宜的选择,如果多线程性能对他们来说比单个任务性能更重要,那么这是有意义的,因此包含3个较老的处理器而不是1个或2个更新或更强大的处理器。多线程通常需要更多的编程工作来正确分配任务,但是,嘿,我们正在谈论的是特斯拉——这对它来说可能是小菜一碟。无论如何,该芯片的CPU性能比特斯拉之前版本HW2.0的CPU性能高出2.5倍。

AI芯片加速原理:

人工智能(深度学习)现在无处不在,衡量人工智能运算量通常有三个名词。

FLOPS:注意全大写,是floatingpointoperationspersecond的缩写,意指每秒浮点运算次数,理解为计算速度。是一个衡量硬件性能的指标。

FLOPs:注意s小写,是floatingpointoperations的缩写(s表复数),意指浮点运算数,理解为计算量。可以用来衡量算法/模型的复杂度。

MACCs:是multiply-accumulateoperations),也叫MAdds,意指乘-加操作(点积运算),理解为计算量,也叫MAdds,大约是FLOPs的一半。

人工智能中最消耗运算量的地方是卷积,就是乘和累加运算MultiplyAccumulate,MAC。

y=w[0]*x[0]+w[1]*x[1]+w[2]*x[2]+...+w[n-1]*x[n-1]

w和x都是向量,y是标量。上式是全连接层或卷积层的典型运算。一次乘-加运算即一次乘法+一次加法运算,所以上式的MACCs是n。而换到FLOPS的情况,点积做了2n-1FLOPS,即n-1次加法和n次乘法。可以看到,MACCs大约是FLOPS的一半。实际就是MAC只需一个指令,一个运算周期内就可完成乘和累加。卷积运算、点积运算、矩阵运算、数字滤波器运算、乃至多项式的求值运算都可以分解为数个MAC指令,人工智能运算也可以写成MAC运算。

MAC指令的输入及输出的数据类型可以是整数、定点数或是浮点数。若处理浮点数时,会有两次的数值修约(Rounding),这在很多典型的DSP上很常见。若一条MAC指令在处理浮点数时只有一次的数值修约,则这种指令称为“融合乘加运算”/“积和熔加运算”(fusedmultiply-add,FMA)或“熔合乘法累积运算”(fusedmultiply–accumulate,FMAC)。假设3×3卷积,128个filer,输入的featuremap是112×112×64,stride=1,padding=same,MACCs有:3×3×64×112×112×128=924,844,032次,即1.85TOPS算量。

AI芯片就是简单暴力地堆砌MAC单元。增加MAC数量,这是提升算力最有效的方法,没有之一,而增加MAC数量意味着芯片裸晶面积即成本的大幅度增加,这也是为什么AI芯片要用到尽可能先进的半导体制造工艺,越先进的半导体制造工艺,就可拥有更高的晶体管密度,即同样面积下更多的MAC单元,衡量半导体制造工艺最主要的指标也就是晶体管密度而不是数字游戏的几纳米。

具体来说,台积电初期7纳米工艺,每平方毫米是9630万个晶体管,后期7+纳米可以做到每平方毫米1.158亿个晶体管,三星7纳米是9530万个,落后台积电18%,而英特尔的10纳米工艺是1.0078亿个晶体管,领先三星,落后台积电。这也是台积电垄断AI芯片的原因。而5纳米工艺,台积电是1.713亿个晶体管,而英特尔的7纳米计划是2亿个晶体管,所以英特尔的7纳米芯片一直难产,难度比台积电5纳米还高。顺便说下,台积电平均每片晶圆价格近4000美元,三星是2500美元,中芯国际是1600美元。

除了增加数量,还有提高MAC运行频率,但这意味着功耗大幅度增加,有可能造成芯片损坏或死机,一般不会有人这么做。除了简单的数量增加,再一条思路是提高MAC的效率。

提高MAC效率方法:

提升MAC效率最重要的就是存储。

真实值和理论值差异极大。决定算力真实值最主要因素是内存(SRAM和DRAM)带宽,还有实际运行频率(即供电电压或温度),还有算法的batch尺寸。例如谷歌第一代TPU,理论值为90TOPS算力,最差真实值只有1/9,也就是10TOPS算力,因为第一代内存带宽仅34GB/s。而第二代TPU下血本使用了HBM内存,带宽提升到600GB/s(单一芯片,TPUV2板内存总带宽2400GB/s)。

最新的英伟达的A100使用40GB的2代HBM,带宽提升到1600GB/s,比V100提升大约73%。特斯拉是128bitLPDDR4-4266,那么内存的带宽就是:2133MHz*2DDR*128bit/8/1000=68.256GB/s。比第一代TPU略好(这些都是理论上的最大峰值带宽)其性能最差真实值估计是2/9。也就是大约8TOPS。16GB版本的Xavier内存峰值带宽是137GB/s。

为什么会这样,这就牵涉到MAC计算效率问题,如果你的算法或者说CNN卷积需要的算力是1TOPS,而运算平台的算力是4TOPS,那么利用效率只有25%,运算单元大部分时候都在等待数据传送,特别是batch尺寸较小时候,这时候存储带宽不足会严重限制性能。但如果超出平台的运算能力,延迟会大幅度增加,存储瓶颈一样很要命。效率在90-95%情况下,存储瓶颈影响最小,但这并不意味着不影响了,影响依然存在。

然而平台不会只运算一种算法,运算利用效率很难稳定在90-95%。这就是为何大部分人工智能算法公司都想定制或自制计算平台的主要原因,计算平台厂家也需要推出与之配套的算法,软硬一体,实难分开。

最为有效的方法还是减小运算单元与存储器之间的物理距离。也是这15年来高性能芯片封装技术发展的主要目标,这不仅可以提高算力,还能降低功耗减少发热。这其中最有效的技术就是HBM和CoWoS。

CPU与HBM2之间通过Micro-bump连接,线宽仅为55微米,比传统的板上内存或者说off-chip内存要减少20倍的距离。可以大大缓解内存瓶颈问题。

不过HBM和CoWoS价格都很高,假设500万的一次下单量,7纳米工艺的话,纯晶圆本身的硬件成本大约是每片芯片208-240美元,这个价格做训练用AI芯片可以承受,但是推理AI芯片用不起。再有CoWoS是台积电垄断的,台积电也正是靠这种工艺完全垄断高性能计算芯片代工。英特尔的EMIB是唯一能和CoWoS抗衡的工艺,但英特尔不代工。

退而求其次的方法是优化指令集,尽量减少数据的访存,CNN算法会引入大量的访存行为,这个访存行为的频繁度会随着参考取样集合的增加而增加(原因很简单,缓存无法装下所有的参考取样,所以,即便这些参考取样会不断地被重复访问,也无法充分挖掘数据本地化所带来的cache收益)。针对这种应用类型,实际上存在成熟的优化范式——脉动阵列。

脉动阵列

下面说下脉冲阵列的基本原理:

首先,图中上半部分是传统的计算系统的模型。一个处理单元(PE)从存储器(memory)读取数据,进行处理,然后再写回到存储器。这个系统的最大问题是:数据存取的速度往往大大低于数据处理的速度。因此,整个系统的处理能力(MOPS,每秒完成的操作)很大程度受限于访存的能力。这个问题也是多年来计算机体系结构研究的重要课题之一,可以说是推动处理器和存储器设计的一大动力。而脉动架构用了一个很简单的方法:让数据尽量在处理单元中多流动一会儿。

正如上图的下半部分所描述的,第一个数据首先进入第一个PE,经过处理以后被传递到下一个PE,同时第二个数据进入第一个PE。以此类推,当第一个数据到达最后一个PE,它已经被处理了多次。所以,脉动架构实际上是多次重用了输入数据。因此,它可以在消耗较小的memory带宽的情况下实现较高的运算吞吐率。

上面这张图非常直观的从一维数据流展示了脉动阵列的简单逻辑。当然,对于CNN等神经网络来说,很多时候是二维的矩阵。所以,脉动阵列从一维到二维也能够非常契合CNN的矩阵乘加的架构。

降低推理的量化比特精度是最常见的方法。它既可以大大降低运算单元的精度,又可以减少存储容量需求和存储器的读写。但是,降低比特精度也意味着推断准确度的降低,这在一些应用中是无法接受的。由此,基本运算单元的设计趋势是支持可变比特精度,比如BitMAC就能支持从1比特到16比特的权重精度。大部分AI推理芯片只支持INT8位和16位数据。

除了降低精度以外,还可以结合一些数据结构转换来减少运算量,比如通过快速傅里叶变换(FFT)变换来减少矩阵运算中的乘法;还可以通过查表的方法来简化MAC的实现等。

对于使用修正线性单元(ReLU)作为激活函数的神经网络,激活值为零的情况很多;而在对神经网络进行的剪枝操作后,权重值也会有很多为零。基于这样的稀疏性特征,一方面可以使用专门的硬件架构,比如SCNN加速器,提高MAC的使用效率,另一方面可以对权重和激活值数据进行压缩。

需要特别提出的是,大家从图中可以看到,深度学习神经网络包括卷积层和全连接层两大块,剪枝对全连接层的压缩效率是最大的。下面柱状图的蓝色部分就是压缩之后的系数占比,从中可以看到剪枝对全连接层的压缩是最大的,而对卷积层的压缩效果相比全连接层则差了很多。

所以这也是为什么,在语音的加速上很容易用到剪枝的一些方案,但是在机器视觉等需要大量卷积层的应用中剪枝效果并不理想。

对于整个DeepLearning网络来说,每个权重系数是不是一定要浮点的,定点是否就能满足?定点是不是一定要32位的?很多人提出8位甚至1位的定点系数也能达到很不错的效果,这样的话从系数压缩来看就会有非常大的效果。从下面三张人脸识别的红点和绿点的对比,就可以看到其实8位定点系数在很多情况下已经非常适用了,和32位定点系数相比并没有太大的变化。所以,从这个角度来说,权重系数的压缩也会带来网络模型的压缩,从而带来计算的加速。

谷歌的TPUAI计算加速介绍:

这是Google的TPU。从上边的芯片框图可以看到,有一个64K的乘加MAC阵列对乘加运算进行加速。从论文中可以看到里面已经用到了脉动阵列的架构方法来对运算进行加速,另外也有我们前面提到的大量的片上Memory这样的路径。上面蓝色框图中大家可以看到有一个24MiB的片上Memory,而且有两个高速DDR3接口能够与片外的DDR做交互。

再来说说AI芯片。比如大名鼎鼎的谷歌的TPU1。TPU1,大约700MHz,有256X256尺寸的脉动阵列,如下图所示。一共256X256=64K个乘加单元,每个单元一次可执行一个乘法和一个加法。那就是128K个操作。(乘法算一个,加法再算一个)。

另外,除了脉动阵列,还有其他模块,比如激活等,这些里面也有乘法、加法等。

所以,看看TPU1一秒钟的巅峰计算次数至少是=128KX700MHz=89600Gops=大约90Tops。

对比一下CPU与TPU1,会发现计算能力有几个数量级的差距,这就是为啥说CPU慢。

当然,以上的数据都是完全最理想的理论值,实际情况,能够达到5%吧。因为,芯片上的存储不够大,所以数据会存储在DRAM中,从DRAM取数据很慢的,所以,乘法逻辑往往要等待。另外,AI算法有许多层网络组成,必须一层一层的算,所以,在切换层的时候,乘法逻辑又是休息的,所以,诸多因素造成了实际的芯片并不能达到利润的计算峰值,而且差距还极大。

上图展示的第二代TPU。从图中可以很直观的看到,它用到了我们前面所说到的HBMMemory。从其论文披露的信息也可以看到,二代TPU在第一代的基础上增加了我们前面说到的剪枝,权重压缩等方面做了很多尝试,也是一个非常经典的云端AI加速芯片的例子。

特斯拉HW4.0将改变未来汽车的模样

硬件层面:

我们对HW4.0有什么期待呢?目前,我们所知道的是,它的目的是进一步提高安全性。唯一真正告诉我们的是,它不会专注于让一辆旧车学习新技术,但这并不意味着它不会包括一些新技术。以下是我列出的HW4.0可能带来的潜在变化和改进,从最可能的到最具推测性的排列如下:

特斯拉很可能会使用更新的CPU版本,这取决于特斯拉什么时候开始设计基于A75的架构。增加的处理能力让特斯拉有机会节省芯片上的功耗和空间,为更重要的组件腾出空间。

特斯拉可能会升级到LPDDR5,这将导致显著的速度提升和功耗降低。但是,如果HW4.0芯片在设计过程中、或者为了降低成本,特斯拉可能会选择LPDDR4X。通过使用较低的电压平台,LPDDR4X节省了能耗,但如果同时使用多个芯片,它仍然可以提高速度。尽管如此,与HW3.0相比,这种配置并不会节省能耗。任何一种选择都代表着对HW3.0的全面改进。

进一步改进具有更多SRAM的神经网络处理单元。

根据芯片上的处理能力是否能够处理摄像头传输过来的全分辨率和帧速率的数据,特斯拉的HW4,0可能会配备更高分辨率的新摄像头和传感器,甚至可能会有更高的帧速率。更高分辨率的图像是至关重要的,因为更多的细节将帮助计算机更准确地识别物体,并具备更远的识别距离。

升级的图像信号处理器(ISP)。特斯拉想让自己的芯片尽可能的便宜和强大。这就是为什么在HW3.0中,芯片输入的处理能力和ISP的处理能力之间存在很大的脱节,因此需要一个更强大的或第二块ISP,这取决于哪种解决方案需要更低的功耗、更小的空间或更低的成本。

软件层面:

新一代自动驾驶芯片和HW4.0即将在明年量产,重构AutoPilot底层架构,将推出训练神经网络超级计算机Dojo,瞄准L5自动驾驶场景。2020年8月多家媒体报道,特斯拉正与博通合作研发新款HW4.0自动驾驶芯片,有望在明年第四季度大规模量产,未来将采用台积电7nm技术进行生产。同时AutoPilot团队正对软件的底层代码进行重写和深度神经网络重构,包括对数据标注、训练、推理全流程的重构。

全新的训练计算机Dojo正在开发中。Dojo将专门用于大规模的图像和视频数据处理,其浮点运算能力将达到exaflop级别(秒运算百亿亿次),将配合无监督学习算法,来减少特斯拉对于数据人工标注的工作量,帮助特斯拉数据训练效率实现指数级提升。目前特斯拉已经拥有超过82万台车不断回传数据,到2020年年底将拥有51亿英里驾驶数据用于自动驾驶训练,过去的训练数据依赖于人工标注,而主动的自监督学习配合Dojo计算机可以大幅优化算法提升的效率。

特斯拉HW4.0为什么有勇气对激光雷达sayno:

目前还在坚持做图像识别为主的只有特斯拉了,Mobileye已经开始使用了激光雷达做下一代自动驾驶平台的关键器件了,只有马教主坚持激光雷达就像阑尾,他说:一个阑尾就够糟了,还带一堆,简直荒谬。

特斯拉如此有勇气,其实在于它的研发模式,从芯片,操作系统,算法以及控制器都是自研,整个性能可以发挥到极致。

视觉方案通过摄像头,致力于解决“拍到的是什么”问题。从工作原理来看,视觉方案以摄像头作为主要传感器,通过收集外界反射的光线从而进一步呈现出外界环境画面,即我们所熟悉的摄像头功能,再进行后续图像分割、物体分类、目标跟踪、世界模型、多传感器融合、在线标定、视觉SLAM、ISP等一系列步骤进行匹配与深度学习,其核心环节在于物体识别与匹配,或者运用AI自监督学习来达到感知分析物体的目的,需要解决的是“我拍到的东西是什么”的问题。

视觉方案重在分类,但样本有限度限制了视觉识别正确性,而优化样本对于AI学习能力、样本数据量要求极高。由于L3级及以上自动驾驶需要机器应对较为复杂的路况,要求车辆对于道路状况有精准识别能力,而视觉技术需要解决的是“摄像头拍到的是什么物体”的问题,因而对于神经网络训练集要求很高。对于训练的方法,一种为通过机器视觉,人为设定好识别样本,通过收集到的数据直接与样本匹配来识别的方式,但是能否成功辨别物体高度依赖样本的训练,样本未覆盖的物体将难以辨别;另一种为AI学习,能够通过自学习的方式摆脱样本限制,但是对于算法与算力要求很高,并且其学习过程是个“黑盒子”,输出结果的过程未知,因而难以人为调试与纠错。

而这两个关键问题,对于特斯拉都可以通过提高芯片本身的算力,还有云计算平台的大数据训练来解决。

特斯拉的视觉方案具有很高的算法与算力复杂度。特斯拉曾公布过自己数据流自动化计划的终极目标“OPERATIONVACATION”,从数据收集、训练、评估、算力平台到“影子模式”形成数据采集与学习循环。

数据收集:通过8个摄像头对车体周围进行无死角图像采集;

数据训练:使用PyTorch进行网络训练,特斯拉的网络训练包含48个不同的神经网络,

能输出1000个不同的预测张量。其背后训练量巨大,特斯拉已耗费70000GPU小时进行深度学习模型训练;

背后算力支持:特斯拉自研打造了FSD芯片,具有单片144TOPS的高算力值。另外,

特斯拉规划创造Dojo超级计算机,可在云端对大量视频进行无监督学习训练,目前离开发出来的进度值得期待;

影子模式:特斯拉通过独创“影子模式”来降低样本训练成本、提高识别准确度,即特斯拉持续收集外部环境与驾驶者的行为,并与自身策略对比,如果驾驶者实际操作与自身判断有出入,当下数据就会上传至特斯拉云端,并对算法进行修正训练。

从数据采集,本地芯片硬件处理、图像的软件算法处理、再到后台的超级计算机进行训练,这个需要一系列的技术支持,最好从芯片、操作系统、算法、控制器都是自研,这样才能把芯片的性能发挥最佳,从Mobileye的黑盒子开发模式,直接就让车厂彻底放弃了这条纯视觉处理的道路,不投入几千亿估计门都摸不着方向,所以目前只有特斯拉这样的理工男对于激光雷达有勇气sayno。

前面有提到,自动驾驶等级每增加一级,所需要的芯片算力就会呈现十数倍的上升,L2级自动驾驶的算力需求仅要求2-2.5TOPS,但是L3级自动驾驶算力需求就需要20-30TOPS,到L4级需要200TOPS以上,L5级别算力需求则超过2000TOPS。

上一章节特斯拉的算力是72TOPS,接下来介绍的几款平台都是在200TOPS以下的低算力平台,主要是L2级别以上的自动驾驶平台,比如Mobileye,其主要强项在于它基于视觉的ADAS应用,低算力平台芯片有Mobileye、瑞萨、TI,地平线四家芯片平台本期内容会一一介绍。

7、Mobileye方案介绍

Mobileye成立于1999年,是以色列提供基于视觉系统分析和数据处理研发高级驾驶辅助系统和自动驾驶解决方案的全球先行者,为全球27家OEM厂和Tier1厂商提供“芯片+算法”软硬一体化的ADAS视觉解决方案。

EyeQ系列芯片截至2019年底出货5400万,为全球超过5000万辆汽车的行车安全保驾护航,目前全球ADAS市场占有率大约为70%。创办之初公司致力于用单目视觉,提供包括行人检测、车道保持和自适应巡航等辅助驾驶技术,1999年到2001年,Mobileye原型产品每年迭代一次,2001年Mobileye将自研的算法固化到芯片上并集成到汽车当中,从此开启了EyeQ芯片的研发。

2014年到2019年,公司营收复合增速达到44%,2019年收入8.79亿美元,净利润27.9%,其中EyeQ系列芯片2019年出货量达到1740万颗。EyeQ1至EyeQ4等芯片型号已经量产,EyeQ5则预计于明年投放市场。EyeQ4多用于对半自动辅助驾驶技术的支持,最高支持到L3级别,而EyeQ5主要定位于Level4/5无人驾驶阶段的应用。

2019年底,MobileyeEyeQ芯片全球累计出货超过5400万片。

2020年9月,Mobileye透露,EyeQ芯片全球出货量超过6000万片。

这6000万片是EyeQ2、EyeQ3和EyeQ4之和,其中2020年新增的部分主要是EyeQ4。

目前Mobileye一直采用传感器+芯片+算法绑定的一体式解决方案,这种封闭模式也导致客户开发灵活度下降,短期有利于提升市场占有率,受到转型较晚或者AI投入少的OEM厂商欢迎,但长期将导致定制差异化产品的能力欠缺,因此需要快速迭代升级产品的造车新势力或者对转型速度要求较快的OEM厂商很难接受Mobileye的“黑盒”方式。

例如中国造车新势力小鹏汽车曾短暂地用Mobileye的芯片做过测试后决定在P7上改用英伟达的Xavier,主要因为小鹏希望“把芯片和算法剥离开,采用可编程的芯片,在芯片上进行算法研发和定制化,跟场景结合”,因此选择了更开放的英伟达。

EyeQ4配置了4个CPU内核和6个矢量微码处理器(VMP),每个CPU内核又拥有四个硬件线程。EyeQ4芯片引入了新颖的加速器类别:两个多线程处理集群(MPC)内核,两个可编程宏阵列(PMA)内核。结构上,EyeQ4使用28nm的FD-SOI。功能上,相比EyeQ3,EyeQ4新增REM路网收集管理、驾驶决策、任意角度车辆识别、可行驶区域等功能。

即将投放市场的EyeQ5将装备8枚多线程CPU内核,同时还会搭载18枚Mobileye的下一代视觉处理器。

EyeQ5具有更为复杂的功能,将采用7nm制程工艺。EyeQ5最多支持20个外部传感器(摄像头、雷达或激光雷达),“传感器融合”是EyeQ5推出的主要目的。EyeQ5运算性能达到了12Tera/每秒,能耗不到5W,芯片节能效率是对标产品DriveXavier的2.4倍。为了能够运行L4/L5级别自动驾驶,英特尔自动驾驶系统将采用摄像头为先的方法设计,搭载两块EyeQ5系统芯片、一个英特尔凌动芯片以及Mobileye软件。EyeQ5有望实行“开放”战略,Tier1和主机厂等合作伙伴都可以使用“开放式架构”来写入自己的代码,包括传感器融合和驾驶决策等。

EyeQ5Mobileye的SuperVision即将量产

极氪001前面几天的发布会,该车型的自动驾驶使用的就是自动驾驶会采用Mobileye的SuperVision系统。

SuperVision是Mobileye打造的360°纯视觉智能驾驶系统。所谓纯视觉,简单理解就是像特斯拉FSD一样,用摄像头来实现L2及以上级别辅助驾驶能力的智能驾驶系统。

极氪001将搭载的自动驾驶辅助系统Copilot,其集成了2颗MobileyeEyeQ5芯片和视觉感知算法SuperVision,这是一套L2+级自动驾驶系统。

2颗24Tops/10W的EyeQ5H将为自动驾驶系统提供计算上的冗余,主系统芯片将包含完整的技术栈,另一颗芯片则提供冗余备份,在主系统失效时发挥作用。

极氪001的传感器配置:

全车15个摄像头;

2颗EyeQ5H高算力芯片,EyeQ5芯片基于台积电的7nmFinFET工艺打造,单芯片算力达到了24Tops,接近EyeQ4的十倍;

1个250mLRR超长距毫米波雷达;

12个超声波雷达。

可以实现的功能,包含:

可解放双手的高速自动驾驶:包括自动变道、不同高速公路之间的导航、自动上/下匝道以及城市道路辅助驾驶;

自动泊车;

标准ADAS功能:包括AEB、ACC以及LKA等;

DMS驾驶员监控系统。

基于这个平台打造的极氪001会在2021年实现L2+级别的自动驾驶,类似于现在特斯拉的辅助驾驶能力,而到了2023年基于此逐步实现高速NoA或者城市NoA。

Mobileye的后续产品路线

EyeQ5提供的算力水平是最高24TOPS,跟其他几家相比,这个算力水平要逊色不少。

EyeQ6才是Mobileye真正发力高性能的高端。

EyeQ6预计于2024/2025年量产,分为高中低三个版本。

Mobileye在2016年开始设计EyeQ5,选定了MIPS的I6500做架构。

MIPS在I6500架构之上,推出了特别针对车规的I6500-F,而后续的I7200是针对无线市场的。

因此,Mobileye在之后的一代芯片上,放弃了MIPS架构,而决定采用英特尔的Atom内核。

EyeQ6要到2024年才量产,在各家的竞争中也显得有些落后了。

8、瑞萨自动驾驶平台方案介绍

瑞萨是全球第二大汽车半导体厂家,全球第一大汽车MCU厂家,也是日本除索尼(索尼的主营业务主要是图像传感器)外最大的半导体厂家。

从上图的roadmap可以看到,在ADAS芯片这块,瑞萨推出的芯片比较慢,在2018-2020年都是基于R-CarGen3架构推的ADAS芯片。R-CarGen3基于ArmCortex-A57/A53内核,该内核使用Arm64位CPU架构。它提供了处理来自车辆周围多个传感器的大量数据的能力。在开发入门级或高端系统时,在图形和计算机视觉方面存在权衡。

在2018年推出的芯片是R-CARV3M,这颗芯片是一款主要用于前置摄像头应用的SoC,前置摄像头面临的挑战是如何为计算机视觉提供高性能,同时支持低功耗和高水平的功能安全。由于前置摄像头紧靠挡风玻璃安装,因此必须考虑部件本身产生的热量以及阳光直射造成的温度升高。从而对低功耗的要求尤为严格。R-CarV3M解决了这一难题,提高了摄像头系统开发的功效。

2019年推出第二个视觉SoC,即R-CARV3H,该产品具有高性能的视觉处理能力和AI处理能力,并具有业界领先的低功耗,该产品的目标应用是L3和L4级别的自动驾驶中的前置摄像头的应用。新一代R-CarV3H产品针对立体前置环视应用做了优化,比R-CarV3M在视觉处理方面的性能提高了5倍。

四个CPU核:ARMCortex-A53(1000MHz)

支持双LockstepARMCortex-R7(800MHz)CPU

单通道32bit存储器控制器LPDDR4-3200

支持图像识别引擎(IMP-X5-V3H)

专门的CNN硬件加速器,密集的光流处理、密集的立体视觉差的处理和目标分类算法

双图像信号处理(ISP)

视频输出(4lanes×1channelLVDS,1channeldigital)

视频输入(4lanes×2channelsMIPI-CSI2,2channelsdigital)

支持两路CAN-FD接口

一路FlexRay接口

支持一路千兆以太网和AVB以太网

一路PCIExpress接口

这颗芯片的AI算力有4TOPS,从芯片支持的算力和处理速度来看,非常适合处理一些图像数据的处理,适合做传感器的前融合的数据处理。

前融合算法就是在原始层把数据融合在一起,融合好的数据就好比是一个超级传感器,而且这个传感器不仅有能力可以看到红外线,还有能力看到摄像头或者RGB,也有能力看到LiDAR的三维数据,就好比是一双超级眼睛,在这双超级眼睛上面,开发自己的感知算法,最后输出一个结果层的物体。

瑞萨的V3H就想做这个前融合的超级传感器,博世的下一代视觉系统内嵌V3H,当时由于天然缺陷,没有办法融合到雷达的数据,所以瑞萨需要开发加强版的V3U芯片。

首先可以看到V3U基于RenesasR-CarGen4架构,提供了从入门级应用到高度自动化驾驶系统的可扩展性。该部件可用于高级驾驶辅助系统(ADAS),允许使用风冷式电子控制单元(ECU),从而在重量和成本方面带来优势。

V3U可以单芯片同时处理摄影机与雷达等传感器资料,同时以AI进行自动驾驶控制与学习,同时达到汽车安全标准ISO26262最高的ASILD要求,确保系统简单安全。

R-CarV3USoC中的三大优势:

1、高能效、高性能的卷积神经网络(CNN)硬件加速器

随着新一代ADAS和AD系统中使用的传感器数量不断增加,CNN处理性能也需要不断加强。而通过减少由功率消耗产生的热量,可以安装空气冷却式电子控制单元(ECU),从而减少重量并降低成本。

瑞萨电子目前已开发出具有出色深度学习性能的CNN硬件加速器内核,并为R-CarV3U以高密度配置了三个加速器内核,每个CNN加速器内核有2MB的专用存储器,总共有6MB的存储器。这样一来,外部DRAM与CNN加速器之间的数据传输减少了90%以上。

R-CarV3U还提供多种可编程引擎,包括用于雷达处理的DSP,用于传统计算机视觉算法的多线程计算机视觉引擎,用于提升图像质量的图像信号处理以及用于密集光流、立体差异和物体分类等关键算法等的其它硬件加速器。

瑞萨一直汽车电子领域,所以低功耗是它的拿手好戏,这里达到了惊人的13.8TOPS/W的能效比,是顶配EyeQ6的6倍之多,这个非常恐怖。

R-CarV3U提供高度灵活的DNN深度神经网络和AI机器学习功能。其灵活架构能够运行所有用于汽车障碍物检测与分类任务的最前沿神经网络,提供60.4TOPS高性能的同时,实现同类最佳的电源效率13.8TOPS/W。

2、具有自我诊断能力的ASILD系统安全机制

ISO26262汽车功能安全标准是一项针对各种功能安全级别的数字目标(指标)。最高功能安全级别的ASILD要求单点故障度量标准(SPFM)为99%以上,潜在故障度量标准(LFM)为90%以上,因此要求极高的随机硬件故障检测率。此外,由于先进车辆操作系统的不断发展,如新一代ADAS和AD系统,汽车级SoC整体功能基本符合ASILD标准。

V3U内部框架如上图:采用8核A76设计。瑞萨没有像特斯拉一样,堆了12个A72,而是使用了ARM的CorelinkCCI-500,即Cache一致性互联,这些冗余的芯片架构设计,都是为了满足ASILD而设计。

瑞萨还开发出安全机制,用于快速检测和响应SoC整体中发生的随机硬件故障。通过组合适合特定目标功能的安全机制,既可以降低功耗,又可以提高故障检测率。将上述机制整合到R-CarV3U中后,SoC的大多数信号处理都可达到ASILD标准,且能够具备自我诊断能力,降低AD系统中容错设计的复杂性。

3、使软件任务间免受干扰(FFI)的支持机制

V3U也是一个系列产品,针对不同层级自动驾驶的需求可以提供多个版本,这样做是为了进一步提高出货量,降低成本。

V3U的产品系列采用的是模块化设计,A76可以是2、4、8核。

GPU也可以不要,外设也可以轻松增减,灵活性很强。

算力不够,安全来凑:

以技术而言,R-CarV3U并不算先进,至少NVIDIA在2020年5月公布的自动驾驶用次世代芯片Orin系列产品,CNN计算有10~2,000TOPS多种芯片;芯片是由台积电制作,使用12纳米(nm)制程,而台积电已开始供应5~7纳米制程芯片。

在Mobileye、瑞萨、英伟达、高通四大自动驾驶芯片厂家中,只有瑞萨的主业是汽车半导体,虽然算力稍微落后,但是它对汽车行业的理解最深,对车规重视程度最高,V3U是在几家中唯一能过ASIL-D的厂家,同时有日本车厂加持,瑞萨希望非常之大。

9、德州仪器TI自动驾驶平台方案介绍

TI芯片是老牌的汽车芯片,同NXP、瑞萨是传统座舱芯片的三大龙头芯片厂家。

TI在处理器上实际上是走得两条产品线,Jacinto和TDA系列。

Jacinto系列将数字处理器的重点放在了汽车等应用上,主要是车载信息娱乐系统。

但是从Jacinto6中,我们看到车载信息娱乐与ADAS功能的结合,这款芯片包括了双ARMCortex-A15内核、两个ARMM4内核、两个C66x浮点DSP、多个3D/2D图形处理器GPU(Imagination),并且还内置了两个EVE加速器。无论是在处理娱乐影音方面,还是车载摄像头的辅助驾驶,可利用汽车内部和外部的摄像头来呈现如物体和行人检测、增强的现实导航和驾驶员身份识别等多种功能。

TDA系列一直是侧重于ADAS功能,可以看到TDA系列兼容性很强,硬件TDA2xV系列是可以做环视、后视等图像处理。

整体TDA系列的硬件和软件都是可以向下兼容的,只是算力和应用方面的区别,这样移植起来非常方便。

自动驾驶Jacinto7系列架构芯片

Jacinto7系列架构芯片含两款汽车级芯片:TDA4VM处理器和DRA829V处理器,前者应用于ADAS,后者应用于网关系统,以及加速数据密集型任务的专用加速器,如计算机视觉和深度学习。此外,这两款处理器包含支持功能安全的微控制器(MCU),使得汽车厂商(OEM)和一级供应商能够用单芯片同时支持ASIL-D高安全要求的任务和功能。

很多人在看到Jacinto7平台发布的时候,基本上就宣布TI放弃了座舱域控制芯片的道路,往ADAS和网关方面转型了,所以很多车厂基本上就放弃TI的Jacinto6的选型,因为TI后续基本上不做座舱域控制芯片了。

DRA829V处理器简单介绍:

传统汽车在网关部分采用的都是CAN、LIN等低速接口,对电控单元的升级不同,现在的汽车发展到了域的结构,包括动力域、ADAS域等,都需要高速的总线接口。

随着汽车实现联网,需要多个计算资源管理更多的数据,需要PCIe和ENET满足高带宽ECU内和ECU间通信,而且在达到基本功能的同时要求高等级的功能安全,需要支持网络安全eHSM。

DRA829V处理器是业界第一款集成了片上PCIe交换机的处理器,同时,它还集成了支持8端口千兆支持TSN的以太网交换机,进而能够实现更快的高性能计算和整车通信。

从上图可以看出,在DRA829V进行了高度集成,将传统的安全MCU、eHSM、以太网交换机集成到一颗芯片中,降低了系统设计的复杂度。同时,注重了隔离性,功能等级从高到低混合起来性能依然稳定。

DRA829VSoC通过提供计算资源、在车辆计算平台中高效移动数据以及在整个车辆网络中进行通信,解决了新型车辆计算架构带来的难题,可以看到DRA829V主要是处理数据交互和安全的问题。

很多人都把这款芯片和NXP发布的S32G混淆了,虽然两个芯片都是用作网关,但是主要的出发点是不同的。

NXP的S32G是作为一个成熟的网络处理器设计的,处理各控制器的OTA升级、数据网关的交互,安全信息的传输等任务,其实没有看到PCIE接口的速信号的转发。

而DRA829V更多是车内高速信号的集联和转发,同时也网关控制的功能,网关控制并不是主节点,仅仅是附属功能。

TDA4VM自动驾驶芯片

由于使用该芯片的车型还没有曝光,先来看看这颗芯片的规格参数。

1Processorcores:

C7xfloatingpoint,vectorDSP,upto1.0GHz,80GFLOPS,256GOPS

Deep-learningmatrixmultiplyaccelerator(MMA),upto8TOPS(8b)at1.0GHz

VisionProcessingAccelerators(VPAC)withImageSignalProcessor(ISP)andmultiplevisionassistaccelerators

DepthandMotionProcessingAccelerators(DMPAC)

Dual64-bitArmCortex-A72microprocessorsubsystematupto1.8GHz,22KDMIPS

–1MBsharedL2cacheperdual-coreCortex-A72cluster

–32KBL1DCacheand48KBL1ICacheperCortex-A72core

SixArmCortex-R5FMCUsatupto1.0GHz,12KDMIPS

–64KL2RAMpercorememory

–TwoArmCortex-R5FMCUsinisolatedMCUsubsystem

–FourArmCortex-R5FMCUsingeneralcomputepartition

TwoC66xfloatingpointDSP,upto1.35GHz,40GFLOPS,160GOPS

3DGPUPowerVRRogue8XEGE8430,upto750MHz,96GFLOPS,6Gpix/sec

Custom-designedinterconnectfabricsupportingnearmaxprocessingentitlement

Memorysubsystem:

Upto8MBofon-chipL3RAMwithECCandcoherency

–ECCerrorprotection

–Sharedcoherentcache

–SupportsinternalDMAengine

ExternalMemoryInterface(EMIF)modulewithECC

–SupportsLPDDR4memorytypes

–Supportsspeedsupto3733MT/s

–32-bitdatabuswithinlineECCupto14.9GB/s

General-PurposeMemoryController(GPMC)

512KBon-chipSRAMinMAINdomain,protectedbyECC

Safety:targetedtomeetASIL-DforMCUislandandASIL-Bformainprocessor

IntegratedMCUislandsubsystemofDualArmCortex-R5Fcoreswithfloatingpointcoprocessorandoptionallockstepoperation,targetedtomeetASIL-Dsafetyrequirements/certification

–512BScratchpadRAMmemory

–Upto1MBon-chipRAMwithECCdedicatedforR5F

–IntegratedCortex-R5FMCUislandisolatedonseparatevoltageandclockdomains

–DedicatedmemoryandinterfacescapableofbeingisolatedfromthelargerSoC

TheTDA4VMmainprocessoristargetedtomeetASIL-Bsafetyrequirements/certification

–WidespreadECCprotectionofon-chipmemoryandinterconnect

–Built-inself-test(BIST)an

正常情况下看规格书都是英文,这里简单对于高性能参数方面再阐述一下。

TDA4VM处理器核采用C7x浮点,矢量DSP,高达1.0GHz,80GFLOPS,256GOPS;

深度学习矩阵乘法加速器(MMA),1.0GHz高达8TOPS(8b);

视觉处理加速器(VPAC)和图像信号处理器(ISP)和多个视角辅助加速器;

深度和运动处理加速器(DMPAC);

具有两个64位ArmCortex-A72微处理器子系统,工作频率高达1.8GHz,22KDMIPS;

每个Cortex-A72核集成了32KBL1DCache和48KBL1ICache,有六个ArmCortex-R5FMCU,工作频率高达1.0GHz,12KDMIPS;

每个核存储器为64KL2RAM,隔离MCU子系统有两个ArmCortex-R5FMCU,通用计算部分有四个ArmCortex-R5FMCU,两个C66x浮点DSP,工作频率高达1.35GHz,40GFLOPS,160GOPS;

TDA4VM处理器仅使用5到20W的功率执行高性能ADAS运算,无需主动冷却。

高性能内核概述:

“C7x”下一代DSP将TI行业领先的DSP和EVE内核整合到单个性能更高的内核中并增加了浮点矢量计算功能,从而实现了对旧代码的向后兼容性,同时简化了软件编程。在典型汽车最坏情况结温125°C下运行时,新型“MMA”深度学习加速器可在业界最低功率包络内实现高达8TOPS的性能。专用的ADAS/AV硬件加速器可提供视觉预处理以及距离和运动处理,而不会影响系统性能。

TI公司的TDA4VM处理器系列是基于Jacinto7架构,目标用在驾驶辅助系统(ADAS)和无人驾驶汽车(AV).TDA4VM处理器具有强大的片上数据分析的能力,并与视觉预处理加速器相结合,从而使得系统性能更高效。汽车厂商和一级供应商可用来开发前置摄像头应用,使用高分辨率的800万像素摄像头,帮助车辆看得更远并且可以加入更多驾驶辅助增强功能。

此外,TDA4VM处理器能够同时操作4到6个300万像素的摄像头,同时还可以将雷达、激光雷达和超声波等其他多种感知处理融合在一个芯片上。这种多级处理能力使得TDA4VM能够胜任ADAS的中心化处理单元,进而实现自动泊车应用中的关键功能(如环绕视图和图像渲染显示),同时增强车辆感知能力,实现360度的识别感知。

从整个芯片性能和功能来看,结合无人驾驶系统架构,其实TI的ADAS芯片和瑞声的V3H基本上十分类似,都是做图像或者雷达的数据融合处理,而且都是以低功耗为主,算法需要十分强大,这样提高芯片的处理能力,把处理完的信号再给到控制芯片。

TDA4M优势:

以更低的功耗提高车辆感知能力

通过接入摄像头、雷达和激光雷达数据,ADAS技术帮助汽车看到并适应周围的世界。大量信息涌入汽车意味着处理器或片上系统需要快速有效地实时管理多级数据处理,并且需要满足系统的功耗要求。TI的新处理器仅使用5到20W的功率执行高性能ADAS运算,无需主动冷却。

TDA4VM以业界领先的功耗/性能比为传统和深度学习算法提供高性能计算,并具有很高的系统集成度,从而使支持集中式ECU或独立传感器中多种传感器模式的高级汽车平台实现可扩展性和更低的成本。

关键内核包括具有标量和矢量内核的下一代DSP、专用深度学习和传统算法加速器、用于通用计算的最新Arm和GPU处理器、集成式下一代成像子系统(ISP)、视频编解码器、以太网集线器以及隔离式MCU岛。所有这些都由汽车级安全硬件加速器提供保护。

10、地平线自动驾驶平台方案介绍

地平线具有领先的人工智能算法和芯片设计能,通过软硬结合,设计开发高性能、低成本、低功耗的边缘人工智能芯片及解决方案,面向智能驾驶和AIoT,地平线可提供超高性价比的边缘AI芯片、极致的功耗效率、开放的工具链、丰富的算法模型样和全面的赋能服务。

而在AIoT领域,地平线携手合作伙伴已赋能多个国家级开发区、国内一线制造企业、现代购物中心及知名品牌店。目前基于创新的人工智能专用计算架构BPU(BrainProcessingUnit),地平线已成功流片产中国首款边缘人工智能处理器--专注于智能驾驶的“征程(Journey)”系处理器和专注于AIoT的“旭日(Sunrise)”系处理器,并已大规模商用。

征程系列芯片可以同时支撑智能汽车智能座舱AI应用和自动驾驶应用,应用于智能座舱域和自动驾驶域,最终成为中央计算平台主控芯片。目前征程二代可支撑L2自动驾驶应用,下一代芯片将支持L3/L4自动驾驶应用。

未来智能座舱走向交互方式升级,例如车内视觉(光学)、语音(声学)以及方向盘、刹车踏板、油门踏板、档位、安全带等底盘和车身数据,利用生物识别技术(车舱内主要是人脸识别、声音识别),来综合判断驾驶员(或其他乘员)的生理状态(人像、脸部特征等)和行为状态(驾驶行为、声音、肢体行为),做到让车真正“理解”人,座舱演变成全面“个人助理”。

因此地平线去年发布的征程二代芯片拥有强大的智能座舱多模感知算法支撑能力,并在2020年4月上市的长安SUV车型UNI-T上正式商用,目前UNI-T智能座舱功能如视线亮屏、分心提醒、疲劳监测、智能语音拍照等均已达到成熟稳定的高标准用户体验。

目前征程二代能够对多类目标进行实时检测和精准识别,并提供高精度且低延迟的感知输出,可满足自动驾驶视觉感知、视觉建图定位、视觉ADAS等智能驾驶场景的需求,以及语音识别,眼球跟踪,手势识别等智能人机交互的功能需求。

可以同时跑超过60个分类任务,每秒钟识别目标数可以超过2000个,因此完全可以满足L2级别智能驾驶的各类视觉应用需求,预计2020年~2021年将会看到正式搭载征程系列芯片实现ADAS功能的量产汽车。

地平线2020年1月份宣布推出新一代自动驾驶计算平台——Matrix2.0,搭载地平线征程二代车规级芯片,可满足L2~L4级别自动驾驶需求。感知层面,Matrix2.0可支持包括摄像头、激光雷达在内的多传感器感知和融合,实现高达23类语义分割以及六大类目标检测,感知算法还能够应对复杂环境,支持在特殊场景或极端天气的情况下输出稳定的感知结果。

在Robotaxi领域,地平线与多家顶级自动驾驶运营公司达成合作,目前Matrix被应用于近千辆的测试车队并开已开展商业运营服务;在整车厂领域,地平线与奥迪长期在高级别自动驾驶技术研发及产品化等方面展开合作,助力奥迪在无锡获得了L4路测牌照,奥迪中国首次在国内实际高速公路场景进行乘用车编队L4自动驾驶及车路协同演示也是采用Matrix计算平台。

新产品路径规划清晰,下一代芯片均在研发和实流片途中,预期单芯片算力未来将接近100TOPS,处理多达16路视频信号。地平线征程二代芯片成功商用是公司新的里程碑,目前征程二代已经拿到多个国家的市场客户的前装的定点。公司后续新产品升级和规划也在快速推进和落地,优秀的商业落地成绩源于持续不断的前瞻性技术探索和AI芯片产品的快速迭代。

作为全球边缘AI芯片领导者,地平线继2019年成功推出车规级AI芯片征程2之后,将于今年推出面向高等级自动驾驶的旗舰级芯片征程5,具备96TOPS的AI算力,实际性能领先国际,并将以边缘人工智能芯片为核心,面向自动驾驶落地应用的实际需求,为产业提供具备极致效能、全面灵活的赋能服务。

5月9日消息,国产车载AI芯片厂商地平线官方宣布,其第三代车规级产品,面向L4高等级自动驾驶的大算力征程5系列芯片,比预定日程提前一次性流片成功并且顺利点亮!

作为业界第一款集成自动驾驶和智能交互于一体的全场景整车智能中央计算芯片,征程5系列芯片基于SGSTVSaar认证的汽车功能安全(ISO26262)产品开发流程体系打造,单颗芯片AI算力最高可达128TOPS,同时支持16路摄像头感知计算。此外,基于征程5系列芯片,地平线将推出AI算力高达200~1000TOPS的系列智能驾驶中央计算机,兼备业界最高FPS(framepersecond)性能与最低功耗。

J5将是地平线第一款面向高等级自动驾驶的大算力芯片,J5将在今年内正式发布。据此前官方披露的消息,基于J5的合作车型量产预计在2022年。

上一章节有提到低算力的自动驾驶平台,本章内容重点介绍高算力的自动驾驶平台,华为、高通、英伟达。

11、华为自动驾驶MDC平台方案介绍

以整车数字架构为基础,全面管理软硬件的复杂性,并确保整车的可靠性:我们提出华为CCA+VehicleStack构建数字系统,这个数字系统可以看一个传统车有六层。

最底下是机械层,第二层是高压电池电气层;第三层是低压的部件层,传感器,执行器,甚至是网关、计算、域控制器等等,再上面一层是软件层,这里含娱乐系统的操作系统、自动驾驶的操作系统、车控的操作系统,而且还包含跨操作系统的VehicleStack,我们叫整车级的中间件,再上面是应用层,比如座舱的应用程序、自动驾驶的应用程序和整车控制的应用程序,再上面是云服务层。

华为定义了三个域控制器:VDC(智能车控平台)负责整车和底盘域,MDC(智能驾驶平台)负责自动驾驶域,CDC(智能座舱平台)负责娱乐域。

华为的CCA+VehicleStack架构从长远的设计理念来看,目标是实现软件跨车型、跨车企的升级和复用,以及硬件的可拓展、可更换,甚至是传感器的即插即用。此外,该架构力求构建可信的安全体系,具体包含整车的数字安全、网络安全、功能安全与隐私保护,使汽车成为持续创造价值的平台。当汽车销售给消费者后,可以像智能手机一样在汽车平台上购买更多的应用和服务,为整车厂和开发商提供持续盈利的空间,从而形成一个正向的商业循环。

CCA+VehicleStack包含基于区域的架构硬件层和整车级软件框架:

1)硬件层方面,在车辆识别单元(VIU)上就近接入相应的传感器和执行器,甚至部分ECU,由VIU为以上电子元器件供电,几个VIU就可以提供高速的以太总线进行互联,搭建环网。即使部分VIU损坏,整个环网也可以通过环回的路线保证通讯安全。在此基础上,华为定义了三个域控制器:VDC(智能车控平台)负责整车和底盘域,MDC(智能驾驶平台)负责自动驾驶域,CDC(智能座舱平台)负责娱乐域。

2)软件框架方面,整车的框架是基于服务的架构,采用微服务和微插件。整车级框架要实现数据的预处理、分组、加密、聚合、分发,同时提供功能安全和网络安全服务。最后在该架构上实现应用程序编程接口(API),让上层的整车管理、热管理、ADAS等应用得以实现。

MDC平台参数说明:

华为MDC平台遵循平台化与标准化原则,包括平台硬件、平台软件服务、功能软件平台、配套工具链及端云协同服务,支持组件服务化、接口标准化、开发工具化;软硬件解耦,一套软件架构,不同硬件配置,支持L2+~L5的平滑演进,保护客户或生态合作伙伴的应用软件开发的历史投资。

华为的自动驾驶计算平台由车BU下的MDC产品部负责。

MDC上采用的AI协处理器是昇腾系列芯片,而CPU来自华为的泰山服务器事业部,即鲲鹏系列芯片。

MDC全称是MobileDataCenter,移动数据中心。

MDC的成员部分来自华为的中央硬件部,后者以开发ARM服务器为主要业务,之后转到自动驾驶领域。

MDC的芯片部分仍由海思提供。

MDC目前主打两款产品:

一款是用在L2+上的MDC210

另一款MDC610,主要用在L4上

MDC210的CPU部分未知,AI处理器是昇腾310。

MDC610的CPU很可能是鲲鹏916,AI处理器是昇腾610。

鲲鹏916,在海思内部代号是Hi1616,是2017年的产品。

其采用32核ARMA72并联设计,最低功耗75瓦,标准TDP功耗85瓦,对标英特尔至强系列服务器CPU。

华为鲲鹏916参数与内部框架图如上:

采用了16纳米工艺,也就是说中芯国际能够代工。

鲲鹏系列更高级的产品是920,海思内部代号Hi1620,采用了16-96核设计,华为自研的架构,ARMv8.2指令集,7纳米工艺。

鲲鹏930计划采用5纳米工艺。

上面说到,华为MDC的AI处理器主要是昇腾310和610。

按照华为的路线图,官方原计划在2020年推出昇腾320、610和920,但一直到目前都没有消息。

昇腾310是采用台积电12纳米FFC工艺制造,于2018年推出,因此性能一般,只有16TOPS算力。

从华为的官方介绍看,昇腾920和610都是定位于服务器深度学习训练用的,不是用于车载应用。

这两款处理器有明显的Cowos多存储芯片封装设计,这种封装成本也很高,不适用于成本敏感的领域。

华为智能驾驶涉及到感知、融合、定位、决策、觃划、控制等多个环节。激先雷达点云数,据处理需要大量CPU算力,摄像头数据需要AI算力,定位、决策、规划、控制等逻辑处理癿环节需要CPU算力。

集合了鲲鹏CPU芯片和昇腾AI芯片癿MDC平台为多样化的智能驾驶提供了算力支撑。

MDC内部模块的功能安全ASIL分解如下,以满足整体ASILD的目标。

作为专业的智能驾驶计算平台,华为MDC采用“统一硬件架构,一套软件平台,系列化产品”的研发规划。华为MDC系列产品(MDC210/MDC300F/MDC610/MDC810),基于领先的基础平台与安全架构,提供48~400+TOPS的弹性算力与丰富的传感器接口,配套持续升级的平台软件MDCCore(含AOS、VOS等),前向兼容长期平滑演进,保护客户历史投资与持续能力积累,覆盖L2+~L5级别自动驾驶的乘用车、商用车、作业车等不同应用场景。

12、高通自动驾驶平台方案介绍

1、高通自动驾驶平台SnapdragonRide平台基本信息

1)该平台包括安全系统级芯片SoC(ADAS应用处理器)、安全加速器(自动驾驶专用加速器)和自动驾驶软件栈,可支持L1~L5级别的自动驾驶;

2)安全系统级芯片SoC和安全加速器的功能安全安全等级为ASIL-D级;

3)平台高度可扩展、开放、完全可定制化,且能够提供功耗高度优化的自动驾驶解决方案;

4)平台将于2020年上半年交付OEM和Tire1进行前期开发,搭载该平台的汽车预计将于2023年投产。

2、SnapdragonRide硬件平台

Ride平台由应用处理器和AI加速器组成,这些AI加速器的范围从高级驾驶辅助系统(ADAS)的SAE1级扩展到完全自治的SAE5级。Ride平台利用基于域的体系结构,该体系结构允许汽车制造商将多个车辆域聚合到一个集中式平台中,并且还可以使用基于以太网,PCIe或CAN-FD的网络在所有主要系统之间进行通信,从而实现高速连接。

该平台包括两大核心芯片和自动驾驶软件栈:安全系统级芯片SoC(ADAS应用处理器)、安全加速器(自动驾驶专用加速器,ASIC芯片),全部达到ASIL-D,可支持L1~L5级别的自动驾驶;

ADAS应用处理器:KryoCPU、AdrenoGPU、神经处理器、嵌入式视觉处理器

自动驾驶专用加速器(ASIC):神经处理器阵列

L1/L2级ADAS:面向具备AEB、TSR和LKA等驾驶辅助功能的汽车

硬件支持:1个ADAS应用处理器,可提供30TOPS的算力

L2+级ADAS:面向具备HWA(高速辅助)、自动泊车APA以及TJA(低速辅助)功能的汽车

硬件支持:2个或多个ADAS应用处理器,期望所需算力要求60~125TOPS的算力

L4/L5级自动驾驶:面向在城市交通环境中的自动驾驶乘用车、机器人出租车和机器人物流车;

硬件支持:2个ADAS应用处理器+2个自动驾驶加速器(ASIC),可提供700TOPS算力,功耗为130W

SnapdragonRide硬件平台示例

1)摄像头7个

前部:1个长距+1个中距侧部:2个侧前视+2个侧后视后部:1个长距

2)毫米波雷达6个

前部:1个长距+2个中距后部:1个长距+2个中距

3)高精地图

4)CV2X接收装置

SnapdragonRide软件平台

SnapdragonRide软件平台包括:规划堆栈、定位堆栈、感知融合堆栈、系统框架、核心软件开发工具包(SDK)、操作系统和硬件系统;

平台还包括一个完整的软件堆栈,该软件堆栈支持包括Linux和QNX在内的多个操作系统,以及由高通公司设计和开发的应用程序,这些应用程序可利用感知,本地化,传感器融合和行为计划来自我导航高速公路驾驶员应用程序。顾客,包括OEM和一级汽车电子供应商在内,将能够自定义和添加其他应用程序。

总体而言,高通骁龙产品策略应该还是以车载娱乐信息系统为主,逐步向更专业的ADAS拓展。

13、英伟达自动驾驶平台方案介绍

自2015年开始,英伟达已经推出4代自动驾驶计算平台分别为:DrivePX、DrivePX2、DriveAGXXavier/Pegasus、DriveAGXOrin。

DrivePX2:算力24TOPS,性能强,受到很多车企和自动驾驶企业的青睐,如特斯拉。

DriveAGXOrin:算力2000TOPS,功耗目前为800W,功耗较高,仍需优化。

在自动驾驶领域,英伟达提供芯片+开放软件生态,提供包括DriveAV、DriveIX、DriveSim等软件在内的完整的开发者套件。

在未计算图灵GPU的价格下,英伟达面向L4、L5级的AGXPegasus的载板,成本总计大约6090元人民币。

单纯的一片Xavier价格大概600元左右。

2017年1月,英伟达发布用于自动驾驶领域Xavier系统级SOC芯片,Xavier拥有超过90亿个晶体管,配置了一个8核CPU、一个全新的512核VoltaGPU、一个深度学习加速器、全新计算机视觉加速器、以及全新8KHDR视频处理器,针对自动驾驶数据量做了特殊的设计和优化,采用了16nmFinFET工艺,功耗为30W,算力达到30TOPS。2020年4月上市的小鹏汽车P7,成为首款搭载NVIDIADRIVEAGXXavier自动驾驶平台的量产车型,小鹏P7配备了13个摄像头、5个毫米波雷达、12个超声波雷达,集成开放式的NVIDIADRIVEOS操作系统。

2019年12月英伟达发布了新一代面向自动驾驶和机器人领域Orin芯片和计算平台,可扩展、可编程,具有ARMHerculesCPU内核和英伟达下一代GPU架构。OrinSoC包含170亿晶体管,晶体管的数量几乎是XavierSoC的两倍,具有12个ARMHercules内核,将集成下一代NvidiaGPU,提供200TOPS@INT8性能,接近XavierSoC的7倍,OrinSOC将在2021年提供样片,2022年正式面向车厂量产。

2020年5月GTC上,英伟达介绍了即将发布的新一代自动驾驶Drive平台,Drive平台如果搭载两个OrinSoC和两块NVIDIAAmpereGPU,可以实现从入门级ADAS解决方案到L5级自动驾驶出租车(Robotaxi)系统的全方位性能提升,平台最高可提供2000TOPS算力。

蔚来ET7使用orin芯片。

ET7搭载了4颗NVDIADriveOrin芯片以及800万像素的摄像头,这两个硬件设备是视觉自动驾驶技术实现的根本。先来说下芯片,这款芯片是专业的车载芯片。

ORin芯片可以支持基于Cuda和TensorRT做深度学习模型的服务,TensorRT是一个模型服务的框架,可以支持各种框架产生的模型。

ET7每秒钟可以产生8GB的视频,而视觉自动驾驶技术,其实就是一个物体识别模型实时inference的流程,需要保持每秒钟超过10个以上的图片识别请求效率。所以视觉自动驾驶的实现前提是强大的芯片计算力。Orin芯片是这个计算力的保证。

ADAM由4颗英伟达DriveOrin芯片组成,它们在大多数时候都是各司其职,其中两颗芯片负责自动驾驶,一颗为冗余芯片,最后一颗负责群体智能与个性训练。

四颗芯片的核心数据如下:48个CPU内核,256个矩阵运算单元,8096个浮点运算单元,共计680亿个晶体管。正是这些芯片,让每天近8亿的数据量,高效稳定地运行在蔚来的这套NAD系统上。

14、自动驾驶域控制器基本架构

域控制其中最核心的是主芯片,一般会采用一颗或多颗高性能的SOC。SOC是SystemonChip的缩写,就是在单块芯片上集成多个微处理器、模拟IP核、数字IP核和存储器等部件,比如CPU、GPU、DSP、ISP、Codec、NPU、Modem等模块。

这些单元,在一套总线系统的连接下,构成了一个系统。大家所熟知的各种手机SOC芯片,如苹果的A系列、高通的骁龙系列、华为的麒麟系列,或者各类的AISOC芯片,车载领域的各种SOC芯片,都逃不出以上范式。虽然都是同一范式,但是由于使用的场景不同,各个芯片的侧重点不太一样:

自动驾驶芯片,注重高性能计算,一般配备有强大的NPU、GPU、DSP等。

15、自动驾驶芯片重要指标

中央控制器作为自动驾驶核心部件,作为自动驾驶的“大脑”端,通常需要外接多个摄像头、毫米波雷达、激光雷达,以及IMU等设备,完成的功能包含图像识别、数据处理等。因此,其需要具备多传感器融合、定位、路径规划、决策控制、无线通讯、高速通讯的能力,因而从始至终牵动着整个处理及控制命脉。

这里需要注意的是,由于自动驾驶传感器对于驾驶辅助系统的复杂度影响力(主要表现在计算能力、传输带宽、存储能力等)几乎是成倍的增加,特别是侧视摄像头的加入导致需要预处理的视频数据成倍的增加,同时,激光雷达的加入又不断地生成千万级的待处理点云信息,这就对其自动驾驶控制器计算性能及算法能力提出了比较大的需求,这也使得我们需要对自动驾驶控制器芯片选型单独提出的需求。

由于要完成大量运算,域控制器一般都要匹配一个核心运算力强的处理器,能够提供自动驾驶不同级别算力的支持,其运行时期的信息交换速度、算法计算速度、存储能力等均受到其内部控制芯片的影响。对于自动驾驶控制器芯片选型而言,主要考虑如下一些技术要求参数信息来进行方案设计。

1)算力:

自动驾驶的实现,需要依赖环境感知传感器对道路环境的信息进行采集,将采集到的数据传送到汽车中央处理器进行处理,用来识别障碍物、可行道路等,依据识别结果,规划路径、制定车速,自动控制汽车行驶。整个过程需要在一瞬间完成,延时必须要控制在毫秒甚至微秒级别,才能保证自动驾驶的行驶安全。

要完成瞬时处理、反馈、决策规划、执行的效果,对中央处理器的算力要求非常高。在自动驾驶中,最耗费算力的当属视觉处理,占到全部算力需求的一半以上,且自动驾驶级别每升高一级,对计算力的需求至少增加十倍。L2级别需要2个TOPS的算力,L3需要24个TOPS的算力,L4为320TOPS,L5为4000+TOPS。

第一部分通常是GPU或TPU,承担大规模浮点数并行计算需求,主要用于环境感知和信息融合,包括摄像头、激光雷达等传感器信息的识别、融合、分类等,如Xavier的GPU单元、昇腾310。

第二部分大多为ARM架构,类似于CPU,主要负责逻辑运算和决策控制,处理高精度浮点数串行计算。

目前来看单颗芯片的算力最大的是英伟达的orin-X芯片,200TOPS算力,能效比最高的是地平线6.4FTOPS/W。

光有算力还不够,考虑汽车应用的复杂性,汽车处理器还需要同时考虑算力利用率、是否通过车规和安全标准等。算力理论值取决于运算精度、MAC的数量和运行频率。如下表示了一种典型的单帧算力计算方式:

理论算力是根据Net卷积层的乘法运算累加得出,卷积层中的每次乘加(MAC)算成两个OPS,卷积运算量占DLNET的90%以上,其它辅助运算或其它层的运算忽略不计,SSD所有卷积层乘法运算总数是40GMACs,所以理论算力是80GOPS。

真实值和理论值差异极大,考虑其它运算层,硬件实际利用率要高一些。决定算力真实值最主要因素是内存(SRAM和DRAM)带宽,还有实际运行频率(即供电电压或温度),还有算法的batch尺寸。

2)能效比:

对于车载AI芯片来说,算力指标重要,能效比更重要。在传统芯片行业,PPA(算力、功耗和面积)是最经典的性能衡量指标。因为现在汽车自动驾驶对算力的追求,业界往往会把峰值算力当作衡量AI芯片的主要指标。

地平线致力于打造极致AI能效,芯片设计上能效比行业领先。未来一辆自动驾驶车辆平均每天产生600-1000TB的数据计算,仅2000辆自动驾驶车辆产生的数据量超过2015年我们整个文明一天数据用量,大规模设备端部署需要成本效率。

要实现大规模部署,尤其在汽车初始售价逐步下降的情况下,车载AI芯片需要充分考虑芯片的能效比。地平线在AI处理器设计的初始就开始从整个芯片的系统级设计和芯片级别角度上思考SoC的设计思路,将经典芯片设计思想和带宽利用率优化结合在一起,注重真实的AI能力输出,既守住主效能又兼顾灵活效能的BPU思想。

以2020年最先商用量产的地平线征程二代芯片为例,搭载自主创新研发的高性能计算架构BPU2.0(BrainProcessingUnit),可提供超过4TOPS的等效算力,典型功耗仅2瓦,且具有极高的算力利用率,典型算法模型在该芯片上处理器的利用率可以高于90%,能够高效灵活地实现多类AI任务处理,对多类目标进行实时检测和精准识别,可全面满足自动驾驶视觉感知、视觉建图定位、视觉ADAS等智能驾驶场景的需求,以及语音识别,眼球跟踪,手势识别等智能人机交互的功能需求,充分体现BPU架构强大的灵活性。

作为通用GPU的代表供应商英伟达的自动驾驶系列芯片,通过添加神经网络单元,以实现对AI处理越来越高效,但总体而言GPU仍功耗较高。丰富的通用模块虽可实现对各种场景的适用性,但也带来了成本过高、功耗过高的问题。征程二代芯片具备极高的算力利用率,每TOPSAI能力输出可达同等算力GPU的10倍以上。与此同时,征程二代还可提供高精度且低延迟的感知输出,满足典型场景对语义分割、目标检测、目标识别的类别和数量的需求。

3)最小核心系统:

a)Core:内核通常是空间中心。一方面便于自动驾驶控制器和外围传感器、执行器通讯,同时也用外围来保护它。core强调运行态,通常出现的core-down,是指cpu计算上出现问题了,core强调的是自动驾驶控制器整体对外功能中的核心功能。

b)DMIPS:主要用于测整数计算能力。包含每秒钟能够执行的指令集数量,以及其这些指令集在实现我的测试程序的时候,每秒钟能够实现的工作数量,这个能力由cpu的架构,内存memory的访问速度等硬件特性来决定。它是一个测量CPU运行相应测试程序时表现出来的相对性能高低的一个单位(很多自动驾驶芯片评估场合,人们习惯用MIPS作为这个性能指标的单位)。

c)Memory:存储器管理单元的主要功能包括:虚拟地址到物理地址映射、存储器访问权限控制、高速缓存支持等;这里还包括一个支持最大的数据带宽,这个直接影响到数据传输的带宽。

d)DataFlash:DataFlash是美国ATMEL公司推出的大容量串行Flash存储器产品,采用Nor技术制造,可用于存储数据和程序代码。与并行Flash存储器相比,所需引脚少,体积小,易于扩展,与单片机或控制器连接简单,工作可靠,所以类似DataFlash的串行Flash控制器越来越多的用在自动驾驶控制器产品和测控系统评估中。

4)图像接口和图像处理能力

a)图像接口CSI:

CSI作为前端-配置逻辑接口,可以支持大多数通用的可用的CMOS摄像头接口,支持方便YCC,YUV,Bayer或者是RGB的数据格式输入,完全可控的8-bit或16-bit数据到32-bit的FIFO进行打包,32*32大小的FIFO存储接受到的的图像像素数据,该FIFO可以通过可编程的IO或者是DMA进行读取。

后端-提供了直接到eMMA的预处理PrP块接口(PrP和PP组成了MX27图形加速器eMMA,PrP和PP能够用来给视频做预处理和后期处理,例如,放大,缩小,颜色转换)。提供sensor的可屏蔽中断源,该中断源也是中断可控的,提供给外部sensor用的,可配置的主时钟频率,由统计数据产生的自动曝光(AE)和自动白平衡(AWB)控制。

b)视觉处理芯片ISP

ISP作为视觉处理芯片核心,其主要功能包括AE(自动曝光)、AF(自动对焦)、AWB(自动白平衡)、去除图像噪声、LSC(LensShadingCorrection)、BPC(BadPixelCorrection),最后把RawData保存起来,传给videocodec或CV等。通过ISP可以得到更好的图像效果,因此在自动驾驶汽车上对ISP的要求很高,比如开始集成双通道甚至三通道的ISP。

一般来说ISP是集成在AP里面(对很多AP芯片厂商来说,这是差异化竞争的关键部分),但是随着需求的变化也出现了独立的ISP,主要原因是可以更灵活的配置,同时弥补及配合AP芯片内ISP功能的不足。

c)图像绘制芯片GPU:

GPU是基于大的吞吐量设计,用来处理大规模的并行计算。GPU的控制单元可以把多个的访问合并成少的访问。GPU将更多的晶体管用于执行单元,而非像CPU那样用作复杂的数据cache和指令控制。由于GPU具有超强的浮点计算能力,可用于在智能汽车前端的图像或视频处理领域的应用,也越来越多地应用在中央控制器高性能计算的主流设计中。

ETH和CAN:中央控制器芯片设计中需要充分考虑其连接接口是否支持以太网和CANFD等高级数据连接传输方式,这是接收并有效处理数据的前提。

需要支持丰富的接口,通过对比分析,自动驾驶系统传感器数量很多但是种类无外乎摄像头、激光雷达、毫米波雷达、超声波雷达、组合导航、IMU、V2X模块等。

自动驾驶系统对于摄像头可供选择的不是很多,接口类型有MIPISI-2、LVDS、GMSL、FPDLink等;激光雷达都是Ethernet接口,目前大多是普通Ethernet;毫米波雷达都是CAN总线传输;超声波雷达LIN总线就够了;组合导航和惯导常见接口为RS232串口;V2X模块采用Ethernet接口传输。

需要支持PCIE接口:

一般的应用场景中,集成一个主芯片就能够满足计算资源的需求,但是自动驾驶对算力有着更高的要求,有时候于安全的考虑,也需要同时集成多个主芯片,其结构一般如下图所示:

多个芯片在需要在PCIeSwitch的连接下共同组成一个计算单元,如果以后发展成可动态拓展的形式(类似于刀片机),该结构依然适用,以下是采用两个Xavier芯片组成的一个高性能计算单元的示意图:

6)主芯片需要满足车规及功能安全的需求

人工智能时代车规级AI芯片成为皇冠上的明珠,竞争壁垒高。终端侧的AI芯片,车规级AI芯片是皇冠上的明珠。由于车规级标准极难认证,车规级人工智能芯片代表了芯片行业中的最高标准,与消费级和工业级芯片相比,车规级AI芯片在安全性、可靠性和稳定性上都有最高的要求。必须要达到,车载环境温度在-40℃到125℃区间,故障率为0。

因为对安全性、可靠性的要求高,所以芯片从设计到车上测试验证、真正实现量产一般需要至少4~5年。由于车规级芯片开发周期长、设计难度大,属于长跑创新,一旦建立起领先优势,龙头厂商将具有较高的竞争壁垒,人工智能时代车规级AI芯片成为皇冠上的明珠,领先厂商竞争壁垒较高

现在自动驾驶的芯片不仅仅需要过AECQ100的车规级要求,而且要求增加功能安全的认证要求。

功能安全目标是整个自动驾驶中央控制器的核心设计需求,由于其影响对整个自动驾驶功能设计中的单点失效分析结果,因此,在前期硬件设计中就需要充分考虑其是否能够完全满足系统对于硬件的功能安全设计需求。

功能安全在芯片上的设计原则是要尽可能多的找出芯片上的失效场景并纠正。失效又分为系统和随机两种,前者依靠设计时的流程规范来保证,后者依赖于芯片设计上采取的种种失效探测机制来保证。我们在这主要谈后者。简单来说,芯片的失效率,是基于单个晶体管在某个工艺节点的失效概率,推导出片上逻辑或者内存的失效概率。面积越大,晶体管越多,相应的失效率越大。

ISO26262把安全等级做了划分,常见的有ASIL-B和ASIL-D级。ASIL-B要求芯片能够覆盖90%的单点失效场景,而ASIL-D则是99%。这其实是个非常高的要求。一个晶体管的失效概率虽低,可是通常一个复杂芯片是上亿个晶体管组成的,如果不采取任何措施,那任何一点的错误都可能造成功能失效,失效率很高,这对于芯片设计来说需要增加非常多的冗余措施和开发成本,不是一蹴而就的,目前过了产品的芯片的ISO26262的功能认证的自动驾驶芯片不多,特斯拉就没有过,当然它是特独立的芯片厂家,但是我们在选择自动驾驶平台的时候需要考虑这个因素。

自动控制需要负责可靠性和车辆控制,也就是功能安全和冗余监控作用,不要求很高的算力,但是可靠性必须要有保障,ISO26262等级要求达到ASIL-D,目前用的较多的就是Infineon的TC297或者TC397,为了达到功能安全,同地平线总监沟通,目前它们这部分控制的MCU也是给到英飞凌芯片做控制,地平线那边输出对应的图像或雷达处理信息,给到英飞凌的MCU去做最终的控制算法。

优控智行的域控制器型号为EAXVA03,据说是第三代产品已经小批量装车。其内置NVIDIAXavier和InfineonTC297T。按照设计部署,Xavier用于环境感知、图像融合、路径规划等,TC297用于安全监控、冗余控制、网关通讯及整车控制。

可以看到,目前芯片基本上制程都往7nm和5nm开发,而且功耗越来越低,算力越来越高,即将上车的roin单芯片算力达到200TOPS。

16、自动驾驶计算平台对比及选择平台考虑因素

自动驾驶计算平台比较

前面提到L2级别需要2个TOPS的算力,L3需要24个TOPS的算力,L4为320TOPS,L5为4000+TOPS。

这里可以看到目前主流的自动驾驶计算平台的算力普遍都在200+TOPS,当然特斯拉是没有达到200TOPS,它是没有激光雷达,这部分所需要的数据处理能力要求降低很多。

这里可以看到很有意思的事情,单个xavier的算力只有30TPOS,但是通过PCIE等连接方式,这样计算平台的算力明显提升,计算平台英伟达的DRIVEPXPegasus的算力达到320TPOS,比特斯拉HW3.0的算力还大。

自动驾驶芯片客户拓展进度

高通的snapdragonride的自动驾驶平台主要在通用、长城、威马、广汽有合作;

自动驾驶芯片平台终极考虑因素

1)较强的神经网络算法能力,智能汽车主控芯片核心是神经网络单元的设计;

2)自动驾驶汽车计算单元设计需要考虑算力、功耗体积等问题,同时做到芯片设计、算法最优化,有效算力最大;

3)有能力提供“软硬一体”平台级解决方案,需要建立足够开放生态使OEM厂商和Tier1可以进行二次开发,同时为客户提供感知、制图、行驶策略等解决方案。

较强的神经网络算法能力:

AI算法能力在对自动驾驶和汽车智能化重要应用场景的关键算法发展趋势进行提前预判,前瞻性地将其计算特点融入到计算架构的设计当中。AI算法是车规AI芯片的灵魂,也对芯片设计带来了更大的挑战,神经网络算法的迭代速度远超硬件的改进速度,一旦设计时考虑不当,将会造成芯片设计结束时算法全面落后的情况,需要针对ADAS应用进行极致优化。

地平线创始人余凯博士是全球最顶尖的AI专家,地平线拥有全球领先的算法团队,前瞻性的对重要应用场景中的关键算法发展趋势进行预判,提前将其计算特点融入到计算架构的设计当中,使得AI处理器经过一两年的研发,在推出的时候,仍然能够很好地适应时下最新的主流算法。

因此和其他典型的AI处理器相比,地平线的AI处理器,随着算法的演进趋势,始终能够保持相当高的有效利用率,从而真正意义上受益于算法创新带来的优势。全球领先的AI算法能力是公司区别于AMD、瑞萨、高通等传统芯片制造商的最大优势。公司掌握了算法和计算架构,再利用自己开发的编译器对算法和芯片同时进行极致优化,释放出所有的潜能。

除了AI的算法,还需要对于一些控制的算法有优化,否则硬件能力再强,没有软件优化的能力,这些硬件配置只能更高。

域控制器ECU资源分配及优化

由于芯片算力的有效利用率影响着整个算法效率,因此对算力的计算和分析是提前。

如上软件模块算法的算力效率牵涉到MAC计算效率问题。如果相应的自动驾驶模块算法或者说CNN卷积需要的算力是1TOPS,而运算平台的算力是4TOPS,那么利用效率只有25%,运算单元大部分时候都在等待数据传送,特别是批量待处理的尺寸较小时候,存储带宽不足会严重限制性能。但如果超出平台的运算能力,延迟会大幅度增加,存储瓶颈一样很要命。效率在90-95%情况下,存储瓶颈影响最小,但这并不意味着不影响了,影响依然存在。然而平台不会只运算一种算法,运算利用效率很难稳定在90-95%。

因此,是否能匹配比较高效的算法也是一个选择芯片平台的重要因素。

软件的开放程度

我们重点分析本土厂商地平线与Mobileye的区别和各自特点:Mobileye虽然拥有成熟和高性价比的L1~L2+ADAS视觉方案,芯片+算法软硬一体捆绑销售的方式在主机厂软件开发能力较差的初期阶段受广泛欢迎。随着ADAS场景复杂度提升,这种方式灵活度较差,客户难以做出差异性产品,也没有办法按照自己的自动驾驶规划目标来设计方案。尤其对于需要快速转型、对自动驾驶升级迭代速度要求较高的OEM厂商、造车新势力,需要芯片和算法分离,可以进行二次开发。

由于系统封闭性,Mobileye摄像头产生的原始数据是以Mobileye的特殊格式保存的,必须要用Mobileye自己的工具链才能打开,2017年特斯拉和Mobileye分道扬镳的很大原因还是因为Mobileye“黑匣子”式商业模式难以满足特斯拉对自动驾驶快速升级的个性化要求。同时Mobileye在中国没有本土服务团队,都是由以色列团队出差到中国提供服务,服务影响速度较慢。

相比之下地平线拥有完整的算法、芯片、工具链一体化的服务能力,拥有专门的软件算法团队协助车厂开发,并向车厂开放算法与软件能力,采取联合开发、共同投入的方式,既能提升主机厂的能力,也能避免Mobileye“黑盒”销售方式,为本土客户提供良好的服务。作为中立第三方,芯片和算法可分开销售或一体式解决方案,为国内主机厂提供将芯片和算法分别进行定制化的解决方案也是未来快速占领市场、建立技术生态的较好方式。对比之下,地平线和英伟达一样,采用较为开放的软硬件体系,并且生态在快速建设过程中。

芯片提供的技术方案同车厂的技术路线规划一致性。

主要芯片供应商大多未停留在芯片本身,而是向软件层逐步延伸,构筑产业生态,不在单纯的提供芯片和底层的SDK,而且合作模式也不是像以前的tier2的身份,这次地平线和长安的合作就是派出了一个研发团队去现场支持,类似于属于tier1的角色。

技术方案上,英伟达与高通提供自动驾驶计算平台及基础软件,不提供应用层算法;华为提供从芯片→算法→传感器的全栈式解决方案;Mobileye与地平线类似,主要为芯片+感知算法

从车企的技术规划路径来看,除了特斯拉是芯片、计算平台、操作系统、感知、规划、控制全部自研外,其他车厂基本上做不到。

蔚来、长城、吉利的后续的技术规划最接近特斯拉,补齐视觉感知短板,布局全栈自研,进而实现软件算法快速更新迭代;芯片选用上逐步由Mobileye转向英伟达,充分利用其大算力及开放生态。

从这里可以看到,部分车厂想要自研芯片,但是这个费用太贵,不是每个车厂都会选择的道路,更多的还是选择同芯片厂家合作,芯片厂家提供对应的底层软件和对应的算法,车厂掌握更多的核心软件及软件OTA赚钱的能力。

Mobileye有超过6000万片出货,有庞大用户基础,美系、韩系还有国内自主品牌都倾向于Mobileye,但目前EyeQ系列产品推出速度太慢,而且软硬件的开发程度不高,这也是理想、蔚来等多家新晋厂商放弃EyeQ平台的原因。

瘦死的骆驼比马大,EyeQ系列还是比较多国内车厂青睐,最新的极氪001就是使用EyeQ5芯片,如果这个翻身仗打好了,订单应该不愁。

高通芯片在智能座舱方面是遥遥领先,特别是8155P芯片,基本上快占据了半壁江山,在自动驾驶方面还是稍微落后一些,虽然主打性价比,而且高通原厂支持力度也大,但是自动驾驶的ride平台选择厂家不少,有长城、威马、广汽、通用,但是最新有披露进度只有长城高端车,需要2022年左右才量产,这部分不确定因素还是太多。

现阶段的的自动驾驶芯片平台的王者毫无疑问是英伟达,英伟达性能一流,至于价格,用黄教主的话说,「买得越多,省得越多」。新兴造车企业追求高性能,蔚来、理想、小鹏几家手上也有几百亿元的现金储备,英伟达在其中颇受青睐。

特别是orin平台,如果这个芯片稳定,那么王者至少会领先5-8年。

THE END
1.活动预告第128期银杏讲坛:音频技术和无线通信在智能汽车中的应用本次银杏讲坛将会邀请到特斯拉研发的技术大咖,分享音频技术和无线通信在智能汽车中的应用,交流行业前沿发展方向。同时,也将带大家了解特斯拉的业务生态、超级工厂和研发创新中心的新技术。另外公司招聘团队也将会为在场同学们介绍招聘岗位和实https://mp.weixin.qq.com/s?__biz=MjM5NTE3MTI5NQ==&mid=2657747629&idx=1&sn=65b6e805dcac75ff518960fdb9ca1c0d&chksm=bc1ab1816f75d64dbfd78c03d37242a4fabca7a21ee00f0c1c978765c9534a982a03e4f36a67&scene=27
2.电子行业专题研究:AI大模型如何加速无人驾驶发展AI+自动驾驶并非全新的概念。特斯拉、新势力等头部玩家已使用基于 Transformer 的模型 进行感知与决策。目前 LCC 等 L2 级别的辅助驾驶功能逐渐标配化,NOA 等高级别辅助 驾驶功能模型成熟度不断提高,市场领先者的测试版逐渐落地。 简言之,我们认为: 1. AI 大模型的引入(自动标注、感知预测算法的快速迭代),从行业https://www.dongchedi.com/article/7243959735760814629
3.深度解析特斯拉最强自动驾驶芯片及视觉传感器在感知层打破了视觉传感器流派的瓶颈,执行层则做到了目前最为完善的自动驾驶功能。鉴于其在自动驾驶领域技术研发积累、硬件软件基本自主可控以及成本优势,预计智能辅助驾驶技术也将成为特斯拉的长期核心竞争力。 1、计算层优势——双芯片算力领航,ECU设计重新定义汽车https://picture.iczhiku.com/weixin/message1579172755754.html
4.一文看懂软件定义汽车全产业链特斯拉EE架构在不断变化,直到Model 3的集中式架构,ECU控制模块越来越少,为实现整车OTA奠定了硬件基础,以Tesla Model S为例,其EE架构具备高度集成特点: 1)具有明显的域划分概念,包括动力域、底盘域、车身等; 2)四大控制器AICM(辅助驾驶及娱乐控制模块)、BCM RH(右车身控制器)、BCM LH(左车身控制器)以及BCM FHhttps://blog.csdn.net/qq_41854911/article/details/125795722
5.技研域控制器:重新定义汽车电子架构的核心面对种种智能化升级的桎梏,特斯拉Model 3 的推出引领了汽车E/E 架构集中化的趋势,将原本相互孤立的 ECU 相互融合,域控制器也由此应运而生。在以域控制器为功能中心的集中化E/E 架构下,芯片算力和软件算法的提升将成为汽车智能化升级的核心。域控制器架构下,汽车智能化升级的研发边际成本将显著降低,并且智能化升https://www.eet-china.com/mp/a315511.html
6.“三新一高”是指什么?入射光线l从P(2,1)出发,经x轴反射后,通过点Q(4,3),则入射光线l所在直线的方程为( )https://www.shuashuati.com/ti/deb5bb9e57b14a8abfff75ee777b3a6e.html
7.MobileyeGlobalInc.(MBLY)个股概要股票价格最新资讯自从2016年特斯拉中断与Mobileye合作,改用自研芯片之后,再观察2022年以及以后上市的新款车型中,尤其是智能电动汽车,几乎清一色地选择了英伟达、高通这种科技巨头的自动驾驶芯片,曾经的ADAS霸主Mobileye似乎已经掉队了。 上个月,Mobileye刚刚发布了2024年第二季度财报。财报数据显示,Mobileye营收规模4.39亿美元,同比下降3%,净https://www.laohu8.com/stock/MBLY/