BEV(Bird’s-eye-view)感知研究对自动驾驶领域影响巨大,关于BEV你需要了解哪些内容,本文通过BEVPerceptionSurvey为你揭晓答案。
BEVPerceptionSurvey是上海人工智能实验室自动驾驶OpenDriveLab团队与商汤研究院合作论文《DelvingintotheDevilsofBird's-eye-viewPerception:AReview,EvaluationandRecipe》的实用化工具呈现方式,分为基于BEVPercption的最新文献研究和基于PyTorch的开源BEV感知工具箱两大板块。
概要解读、技术解读
BEVPerceptionSurvey最新文献综述研究主要包含三个部分——BEV相机、BEV激光雷达和BEV融合。BEV相机表示仅有视觉或以视觉为中心的算法,用于从多个周围摄像机进行三维目标检测或分割;BEV激光雷达描述了点云输入的检测或分割任务;BEV融合描述了来自多个传感器输入的融合机制,例如摄像头、激光雷达、全球导航卫星系统、里程计、高清地图、CAN总线等。
BEV感知工具箱是为基于BEV相机的3D对象检测提供平台,并在Waymo数据集上提供实验平台,可以进行手动教程和小规模数据集的实验。
图1:BEVPerceptionSurvey框架
具体来说,BEV相机表示用于从多个周围相机进行3D对象检测或分割的算法;BEV激光雷达表示用点云作为输入来完成检测或分割任务;BEV融合则是用多个传感器的输出作为输入,例如摄像头、LiDAR、GNSS、里程计、HD-Map、CAN-bus等。
BEVPercption文献综述研究
BEV相机
BEV相机感知包括2D特征提取器、视图变换和3D解码器三部分。下图展示了BEV相机感知流程图,在视图变换中,有两种方式对3D信息进行编码——一种是从2D特征预测深度信息;另一种是从3D空间中采样2D特征。
图2:BEV相机感知流程图
对于2D特征提取器,2D感知任务中存在大量可以在3D感知任务中借鉴的经验,比如主干预训练的形式。
视图转换模块是与2D感知系统非常不同的一方面。如上图所示,一般有两种方式进行视图变换:一种是从3D空间到2D空间的变换,另一种是从2D空间到3D空间的变换,这两种转换方法要么是利用在3D空间中的物理先验知识或利用额外的3D信息监督。值得注意的是并非所有3D感知方法都有视图变换模块,比如有些方法直接从2D空间中的特征检测3D空间中的对象。
3D解码器接收2D/3D空间中的特征并输出3D感知结果。大多数3D解码器的设计来自基于LiDAR的感知模型。这些方法在BEV空间中执行检测,但仍然有一些3D解码器利用2D空间中的特征并直接回归3D对象的定位。
BEV激光雷达
BEV激光雷达感知的普通流程主要是将两个分支将点云数据转换为BEV表示。下图为BEV激光雷达感知流程图,上分支提取3D空间中的点云特征,提供更准确的检测结果。下分支提取2D空间中的BEV特征,提供更高效的网络。除了基于点的方法能在原始点云上进行处理外,基于体素的方法还将点体素化为离散网格,通过离散化连续的3D坐标提供更高效的表示。基于离散体素表示,3D卷积或3D稀疏卷积可用于提取点云特征。
图3:BEV激光雷达感知流程图
BEV融合
BEV感知融合算法有PV感知和BEV感知两种方式,适用于学术界和工业界。下图展示了PV感知与BEV感知流程图的对比,两者的主要区别在于2D到3D的转换和融合模块。在PV感知流程图中,不同算法的结果首先被转换到3D空间中,然后使用一些先验知识或者手工设计的规则进行融合。而在BEV感知流程图中,PV特征图会被转换到BEV视角下,然后进行BEV空间下的融合从而得到最终的结果,因而能够最大化保留原始特征信息,避免过多的手工设计。
图4:PV感知(左)与BEV感知(右)流程图
适用于BEV感知模型的数据集
针对BEV感知任务存在很多的数据集。通常数据集由各种场景组成,并且每个场景在不同数据集中的长度不同。下表总结了目前学界常用的数据集。我们可以从中看到Waymo数据集相比其他数据集有着更多样的场景以及更丰富的3D检测框的标注。
表1:BEV感知数据集一览
然而目前学界并没有针对Waymo开发的BEV感知任务的软件公开。因此我们选择基于Waymo数据集进行开发,希望可以推动BEV感知任务在Waymo数据集上的发展。
Toolbox-BEV感知工具箱
BEVFormer是一种常用的BEV感知方法,它采用时空变换器将主干网络从多视图输入提取的特征转换为BEV特征,然后将BEV特征输入检测头中得到最后的检测结果。BEVFormer有两个特点,它具有从2D图像特征到3D特征的精确转换,并可以把它提取的BEV特征适用于不同的检测头。我们通过一系列的方式进一步提升了BEVFormer的视图转换质量以及最终的检测性能。
在凭借BEVFormer++取得CVPR2022WaymoChallenge第一名后,我们推出了Toolbox-BEV感知工具箱,通过提供一整套易于上手的WaymoOpenDataset的数据处理工具,从而集成一系列能够显著提高模型性能的方法(包括但不限于数据增强,检测头,损失函数,模型集成等),并且能够与领域内广泛使用的开源框架,如mmdetection3d以及detectron2兼容。与基础的Waymo数据集相比,BEV感知工具箱将使用技巧加以优化改进以便不同类型研发人员使用。下图展示的是基于Waymo数据集的BEV感知工具箱使用示例。
图5:基于Waymo数据集的Toolbox使用示例
总结
除理论贡献外,BEVPerceptionSurvey还提供了一套对于提高基于相机的3D鸟瞰图(BEV)物体检测性能十分实用的工具箱,包括一系列的训练数据增强策略、高效的编码器设计、损失函数设计、测试数据增强和模型集成策略等,以及这些技巧在Waymo数据集上的实现。希望可以帮助更多的研究人员实现“随用随取”,为自动驾驶行业研发人员提供更多的便利。
投稿或寻求报道:content@jiqizhixin.com
原标题:《从论文到代码、从前沿研究到工业落地,全面了解BEV感知》