不同于人类,计算机「看待」世界有自己的方式。为了达到类似人类的视觉水平,各种算法层出不穷,本篇就来窥探其冰山一角。
我们生活的世界是一个三维物理空间。直观而言,三维视觉系统有助于机器更好地感知和理解真实的三维场景。三维视觉作为计算机视觉的一个比较重要的研究方向,在过去几十年间得到了扎实和系统地发展,形成了一套完整的理论体系。近年来,随着三维成像技术如激光雷达、TOF相机及结构光等的快速发展,三维视觉研究再次成为研究热点。
3D目标检测多模态融合算法
在目标检测领域,2D目标检测方面发展迅速,出现了以R-CNN、FastRCNN、MaskRCNN为代表的two-stage网络架构,以及以YOLO、SSD为代表的one-stage网络架构。然而由于2D图像缺乏深度、尺寸等物理世界参数信息,在实际应用中存在一定局限性,往往需要结合激光雷达、毫米波等传感器实现多模态融合算法,以增强系统的可靠性。
因此,研究者们提出了许多3D目标检测方法,根据传感器的不同大致可分为视觉、激光点云以及多模态融合三大类。其中视觉又包括单目视觉和双目视觉(深度视觉)两类;激光点云包括三维点云投影和三维空间体素特征;而多模态融合实现了激光点云与视觉的融合。下面将对现阶段比较流行的3D目标检测多模态融合算法研究进行介绍。
论文1《3D-CVF:GeneratingJointCameraandLiDARFeaturesUsingCross-ViewSpatialFeatureFusionfor3DObjectDetection》提出了voxel-based的多模态特征融合。
该研究提出的网络整体结构如下所示。可以看出上下两层分别是对激光雷达点云信息的特征提取(voxel-backbone)和对多张图像信息的特征提取与模态转换。这里需要提及的是由于图像信息仅仅只有一个方向的视野,但是多个摄像头的图像存在视野重叠,所以多张图像的信息融合是为了保证整个环视点云场景的特征都被涉及到。
该研究提出了一种新颖的融合方法——基于点的AttentiveCont-convFusion(PACF)模块,该模块将多传感器特征直接融合在3D点上。除了连续卷积外,该研究还添加了Point-Pooling和AttentiveAggregation等组件,以使融合特征更具表达力。
此外,基于PACF模块,研究人员提出了一个叫做Pointcloud-ImageRCNN(PI-RCNN)的3D多传感器多任务网络,该网络负责图像分割和3D目标检测任务。PI-RCNN使用分段子网从图像中提取全分辨率语义特征图,然后通过功能强大的PACF模块融合多传感器特征。受益于PACF模块的效果和分段模块的有表达力的语义特征,PI-RCNN使3D目标检测的性能大大改善。在KITTI3D检测基准测试中的实验揭示了PACF模块和PI-RCNN的有效性,并且该方法可以在3DAP的度量标准上达到最新水平。
1.使用图像语义分割网络,获得图像的语义特征;
2.检测子网络-1从原始点云中得到目标的三维候选框;
3.PACF模块融合点云特征和图像语义特征;
4.检测子网络-2得到最终的三维检测结果。
论文3《EPNet:EnhancingPointFeatureswithImageSemanticsfor3DObjectDetection》提出了一种新的融合模块,在不需要任何图像注释的情况下,对具有语义特征的点特征进行逐点增强。该研究设计了一个端到端的可学习框架EPNet来集成两个组件。在KITTI和SUN-RGBD数据集上进行的大量实验表明,EPNet优于当前最优方法。其网络结构点云分支是pointencoder-decoder结构,图像分支则是一个逐步encoder的网络,并且逐层做特征融合。
网络整体框架如下图所示:
1.根据三维激光与图像的外参,gridgenerator将三维激光的每一个点投影到原始图像上;
2.imagesampler利用图像特征图与原始图像的比例关系以及双线性插值,得到对应的图像特征图;
3.为了减少图像的遮挡以及深度不确定性对融合造成的影响,LI-Fusionlayer利用点云特征估计对应图像特征的重要程度并筛选,具体是将点云特征与图像特征经过若干操作学习得到权重值,权重值与图像特征相乘再与点云特征串联作为最后的融合特征。
论文4《CLOCs:Camera-LiDARObjectCandidatesFusionfor3DObjectDetection》提出了一种新颖的Camera-LiDAR目标候选(CLOC)融合网络。CLOC融合提供了一种低复杂度的多模态融合架构,显著提高了单模态检测器的性能。CLOC在非最大抑制(NMS)之前对任意2D和任意3D的组合输出候选项进行操作,并被训练利用它们的几何和语义一致性,以产生更准确的最终3D和2D检测结果,最后采用maxpooling的方式选择最终的融合结果。
网络架构图如下所示:
3D人脸检测基本流程
人脸识别技术在国家安全、军事安全、金融安全、共同安全等领域具有广泛的应用前景。人的大脑具备天生的人脸识别能力,可以轻易地分辨出不同的人。但是计算机自动识别人脸技术却面临着巨大的挑战。由于二维人脸识别不可避免地受到光照、姿态和表情的影响,这些因素已成为二维人脸识别技术向前发展的最大障碍。
随着结构光和立体视觉等三维成像技术的日益成熟,越来越多的人脸识别研究人员将目光投向了三维人脸识别技术领域。
目前3D人脸识别技术的主要技术流程如下:
(1)3D人脸数据获取;
(2)3D人脸数据的预处理,包括人脸的检测、切割、去噪等;
(3)3D人脸数据的特征提取;
(4)构建适合的分类器对人脸数据进行判别。
1.基于空域匹配的识别算法
2.基于局部特征匹配的识别算法
3.基于整体特征匹配的识别算法
4.基于模型拟合的识别算法
5.基于3D+2D双模态的识别算法
3D数据集简介
目前3D公开数据少,远少于2D图片;3D高精度数据集只能靠昂贵的设备采集,过程繁琐。这里我们来了解一下现有的3D数据集。
1.BU-3DFE(BinghamtonUniversity3DFacialExpression)数据集:该数据库目前包含100位受试者(女性56%,男性44%),年龄从18岁到70岁不等,包含各种种族,包括白人、黑人、东亚人、中东人等。
2.KITTI数据集:由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评估3D目标检测和3D跟踪等计算机视觉技术在车载环境下的性能。
3.Cityscapes数据集:这是一个较新的大规模数据集,它包含50个不同城市的街道场景中所记录的各种立体视频序列,除了一组较大的20000个弱注释帧外,还具有5000帧的高质量像素级注释。
4.Matterport3D重建数据集:该数据集包含10800个对齐的三维全景视图(RGB+每个像素的深度),来自90个建筑规模场景的194400个RGB+深度图像。
6.TUM数据集:主要包含多视图数据集、3D物体的识别分割、场景识别、3D模型匹配、vSALM等各个方向的数据。
面部3D重建
面部3D重建,可以理解为从一张或多张2D图像中重建出人脸的3D模型。对于面部3D重建,我们先来直观地感受一下效果。
如下动图所示,最右边的重建人脸除了没有皱纹以外,身份特征和面部表情都和原图相当一致,阴影效果也高度还原。只是眼睛部分似乎不太对,显得浑浊无神。
下图中的合成效果也很不错,表情动态很到位。只是可能实验者的眼神实在太有戏,AI表示无力模仿。
直观感受完面部3D重建效果后,我们再来探究模型背后的算法。
传统3D人脸重建方法,大多立足于图像信息,如基于图像亮度、边缘信息、线性透视、颜色、相对高度、视差等一种或多种信息建模技术进行3D人脸重建。
三维变形模型(3DMM)
随着技术的发展,研究者们又提出了基于模型的3D人脸重建方法,这是目前较为流行的3D人脸重建方法。3D模型主要用三角网格或点云来表示,现下流行的模型有通用人脸模型(CANDIDE-3)和三维变形模型(3DMM)及其变种模型,基于它们的3D人脸重建算法既有传统算法也有深度学习算法。
三维变形模型(3DMM)是一个通用的三维人脸模型,用固定的点数来表示人脸。其核心思想是人脸可以在三维空间中一一匹配,并且可以由其他许多幅人脸正交基加权线性相加而来。三维空间中的每一点(x,y,z)实际上都是由三维空间三个方向的基量(1,0,0),(0,1,0),(0,0,1)加权相加所得,只是权重分别为x,y,z。
每一个三维人脸都可以在一个数据库中的所有人脸组成的基向量空间中进行表示,而求解任意三维人脸的模型,实际上等价于求解各个基向量的系数问题。每一张人脸可以表示为形状向量和纹理向量的线性叠加。
任意人脸模型均可以由数据集中的m个人脸模型进行加权组合,如下:
(1)首先计算形状和纹理向量的平均值;
(2)中心化人脸数据;
(3)分别计算协方差矩阵;
(4)求得形状和纹理协方差矩阵的特征值α、β和特征向量si、ti。
上式可以转换为下式:
等式右边仍然是m项,但是累加项降了一维,减少了一项。si、ti都是线性无关的,取其前几个分量可以对原始样本做很好地近似,因此能够大大减少需要估计的参数数目,并不损失准确率。
基于3DMM的方法都是在求解这几个系数,随后的很多模型在这个基础上添加了表情、光照等系数,但是原理与之类似。
参考链接:
2020NeurIPSMeetUp
12月6日北京,机器之心将举办2020NeurIPSMeetUp。活动设置4个Keynote、12篇论文报告与30个Poster,邀请顶级专家、论文作者与现场参会观众共同交流。