3D视觉:一张图像如何看出3D效果?澎湃号·湃客澎湃新闻

不同于人类,计算机「看待」世界有自己的方式。为了达到类似人类的视觉水平,各种算法层出不穷,本篇就来窥探其冰山一角。

我们生活的世界是一个三维物理空间。直观而言,三维视觉系统有助于机器更好地感知和理解真实的三维场景。三维视觉作为计算机视觉的一个比较重要的研究方向,在过去几十年间得到了扎实和系统地发展,形成了一套完整的理论体系。近年来,随着三维成像技术如激光雷达、TOF相机及结构光等的快速发展,三维视觉研究再次成为研究热点。

3D目标检测多模态融合算法

在目标检测领域,2D目标检测方面发展迅速,出现了以R-CNN、FastRCNN、MaskRCNN为代表的two-stage网络架构,以及以YOLO、SSD为代表的one-stage网络架构。然而由于2D图像缺乏深度、尺寸等物理世界参数信息,在实际应用中存在一定局限性,往往需要结合激光雷达、毫米波等传感器实现多模态融合算法,以增强系统的可靠性。

因此,研究者们提出了许多3D目标检测方法,根据传感器的不同大致可分为视觉、激光点云以及多模态融合三大类。其中视觉又包括单目视觉和双目视觉(深度视觉)两类;激光点云包括三维点云投影和三维空间体素特征;而多模态融合实现了激光点云与视觉的融合。下面将对现阶段比较流行的3D目标检测多模态融合算法研究进行介绍。

论文1《3D-CVF:GeneratingJointCameraandLiDARFeaturesUsingCross-ViewSpatialFeatureFusionfor3DObjectDetection》提出了voxel-based的多模态特征融合。

该研究提出的网络整体结构如下所示。可以看出上下两层分别是对激光雷达点云信息的特征提取(voxel-backbone)和对多张图像信息的特征提取与模态转换。这里需要提及的是由于图像信息仅仅只有一个方向的视野,但是多个摄像头的图像存在视野重叠,所以多张图像的信息融合是为了保证整个环视点云场景的特征都被涉及到。

该研究提出了一种新颖的融合方法——基于点的AttentiveCont-convFusion(PACF)模块,该模块将多传感器特征直接融合在3D点上。除了连续卷积外,该研究还添加了Point-Pooling和AttentiveAggregation等组件,以使融合特征更具表达力。

此外,基于PACF模块,研究人员提出了一个叫做Pointcloud-ImageRCNN(PI-RCNN)的3D多传感器多任务网络,该网络负责图像分割和3D目标检测任务。PI-RCNN使用分段子网从图像中提取全分辨率语义特征图,然后通过功能强大的PACF模块融合多传感器特征。受益于PACF模块的效果和分段模块的有表达力的语义特征,PI-RCNN使3D目标检测的性能大大改善。在KITTI3D检测基准测试中的实验揭示了PACF模块和PI-RCNN的有效性,并且该方法可以在3DAP的度量标准上达到最新水平。

1.使用图像语义分割网络,获得图像的语义特征;

2.检测子网络-1从原始点云中得到目标的三维候选框;

3.PACF模块融合点云特征和图像语义特征;

4.检测子网络-2得到最终的三维检测结果。

论文3《EPNet:EnhancingPointFeatureswithImageSemanticsfor3DObjectDetection》提出了一种新的融合模块,在不需要任何图像注释的情况下,对具有语义特征的点特征进行逐点增强。该研究设计了一个端到端的可学习框架EPNet来集成两个组件。在KITTI和SUN-RGBD数据集上进行的大量实验表明,EPNet优于当前最优方法。其网络结构点云分支是pointencoder-decoder结构,图像分支则是一个逐步encoder的网络,并且逐层做特征融合。

网络整体框架如下图所示:

1.根据三维激光与图像的外参,gridgenerator将三维激光的每一个点投影到原始图像上;

2.imagesampler利用图像特征图与原始图像的比例关系以及双线性插值,得到对应的图像特征图;

3.为了减少图像的遮挡以及深度不确定性对融合造成的影响,LI-Fusionlayer利用点云特征估计对应图像特征的重要程度并筛选,具体是将点云特征与图像特征经过若干操作学习得到权重值,权重值与图像特征相乘再与点云特征串联作为最后的融合特征。

论文4《CLOCs:Camera-LiDARObjectCandidatesFusionfor3DObjectDetection》提出了一种新颖的Camera-LiDAR目标候选(CLOC)融合网络。CLOC融合提供了一种低复杂度的多模态融合架构,显著提高了单模态检测器的性能。CLOC在非最大抑制(NMS)之前对任意2D和任意3D的组合输出候选项进行操作,并被训练利用它们的几何和语义一致性,以产生更准确的最终3D和2D检测结果,最后采用maxpooling的方式选择最终的融合结果。

网络架构图如下所示:

3D人脸检测基本流程

人脸识别技术在国家安全、军事安全、金融安全、共同安全等领域具有广泛的应用前景。人的大脑具备天生的人脸识别能力,可以轻易地分辨出不同的人。但是计算机自动识别人脸技术却面临着巨大的挑战。由于二维人脸识别不可避免地受到光照、姿态和表情的影响,这些因素已成为二维人脸识别技术向前发展的最大障碍。

随着结构光和立体视觉等三维成像技术的日益成熟,越来越多的人脸识别研究人员将目光投向了三维人脸识别技术领域。

目前3D人脸识别技术的主要技术流程如下:

(1)3D人脸数据获取;

(2)3D人脸数据的预处理,包括人脸的检测、切割、去噪等;

(3)3D人脸数据的特征提取;

(4)构建适合的分类器对人脸数据进行判别。

1.基于空域匹配的识别算法

2.基于局部特征匹配的识别算法

3.基于整体特征匹配的识别算法

4.基于模型拟合的识别算法

5.基于3D+2D双模态的识别算法

3D数据集简介

目前3D公开数据少,远少于2D图片;3D高精度数据集只能靠昂贵的设备采集,过程繁琐。这里我们来了解一下现有的3D数据集。

1.BU-3DFE(BinghamtonUniversity3DFacialExpression)数据集:该数据库目前包含100位受试者(女性56%,男性44%),年龄从18岁到70岁不等,包含各种种族,包括白人、黑人、东亚人、中东人等。

2.KITTI数据集:由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评估3D目标检测和3D跟踪等计算机视觉技术在车载环境下的性能。

3.Cityscapes数据集:这是一个较新的大规模数据集,它包含50个不同城市的街道场景中所记录的各种立体视频序列,除了一组较大的20000个弱注释帧外,还具有5000帧的高质量像素级注释。

4.Matterport3D重建数据集:该数据集包含10800个对齐的三维全景视图(RGB+每个像素的深度),来自90个建筑规模场景的194400个RGB+深度图像。

6.TUM数据集:主要包含多视图数据集、3D物体的识别分割、场景识别、3D模型匹配、vSALM等各个方向的数据。

面部3D重建

面部3D重建,可以理解为从一张或多张2D图像中重建出人脸的3D模型。对于面部3D重建,我们先来直观地感受一下效果。

如下动图所示,最右边的重建人脸除了没有皱纹以外,身份特征和面部表情都和原图相当一致,阴影效果也高度还原。只是眼睛部分似乎不太对,显得浑浊无神。

下图中的合成效果也很不错,表情动态很到位。只是可能实验者的眼神实在太有戏,AI表示无力模仿。

直观感受完面部3D重建效果后,我们再来探究模型背后的算法。

传统3D人脸重建方法,大多立足于图像信息,如基于图像亮度、边缘信息、线性透视、颜色、相对高度、视差等一种或多种信息建模技术进行3D人脸重建。

三维变形模型(3DMM)

随着技术的发展,研究者们又提出了基于模型的3D人脸重建方法,这是目前较为流行的3D人脸重建方法。3D模型主要用三角网格或点云来表示,现下流行的模型有通用人脸模型(CANDIDE-3)和三维变形模型(3DMM)及其变种模型,基于它们的3D人脸重建算法既有传统算法也有深度学习算法。

三维变形模型(3DMM)是一个通用的三维人脸模型,用固定的点数来表示人脸。其核心思想是人脸可以在三维空间中一一匹配,并且可以由其他许多幅人脸正交基加权线性相加而来。三维空间中的每一点(x,y,z)实际上都是由三维空间三个方向的基量(1,0,0),(0,1,0),(0,0,1)加权相加所得,只是权重分别为x,y,z。

每一个三维人脸都可以在一个数据库中的所有人脸组成的基向量空间中进行表示,而求解任意三维人脸的模型,实际上等价于求解各个基向量的系数问题。每一张人脸可以表示为形状向量和纹理向量的线性叠加。

任意人脸模型均可以由数据集中的m个人脸模型进行加权组合,如下:

(1)首先计算形状和纹理向量的平均值;

(2)中心化人脸数据;

(3)分别计算协方差矩阵;

(4)求得形状和纹理协方差矩阵的特征值α、β和特征向量si、ti。

上式可以转换为下式:

等式右边仍然是m项,但是累加项降了一维,减少了一项。si、ti都是线性无关的,取其前几个分量可以对原始样本做很好地近似,因此能够大大减少需要估计的参数数目,并不损失准确率。

基于3DMM的方法都是在求解这几个系数,随后的很多模型在这个基础上添加了表情、光照等系数,但是原理与之类似。

参考链接:

2020NeurIPSMeetUp

12月6日北京,机器之心将举办2020NeurIPSMeetUp。活动设置4个Keynote、12篇论文报告与30个Poster,邀请顶级专家、论文作者与现场参会观众共同交流。

THE END
1.天工一刻一文看懂3D大模型“纯原生”3D生成方案与通用大模型思路类似,采用端到端方案,首先使用海量3D数据集训练大模型,然后以前馈(feed-forward)方案生成3D模型。 (“纯原生”3D大模型路径代表研究,来自论文《A Comprehensive Survey on 3D Content Generation》) 这一路径的代表玩家毫无疑问有OpenAI——Scaling Law与大模型领域的坚定支持者。https://www.csdn.net/article/2024-07-31/140813818
2.使用Python从2D图像进行3D重建过程详解使用Python从2D图像进行3D重建过程详解 2D图像的三维重建是从一组2D图像中创建对象或场景的三维模型的过程。这个技术广泛应用于计算机视觉、机器人技术和虚拟现实等领域。 在本文中,我们将解释如何使用Python执行从2D图像到三维重建的过程。我们将使用TempleRing数据集作为示例,逐步演示这个过程。该数据集包含了在对象周围https://www.elecfans.com/d/2331603.html
3.3D目标检测数据集KITTI(标签格式解析3D框可视化点云转图像kitti 3D数据集的基本情况: KITTI整个数据集是在德国卡尔斯鲁厄采集的,采集时长6小时。KITTI官网放出的数据大约占采集全部的25%,去除了测试集中相关的数据片段,按场景可以分为“道路”、“城市”、“住宅区”、“校园”和“行人”5类。 传感器配置: https://developer.aliyun.com/article/1376108
4.MedMNIST:18个数据集开启2D+3D医学影像之旅,可免费下载MedMNIST v2医学图像数据集已经发布,相较 MedMNIST v1,MedMNISTv2新增了 2 个 2D 生物图像数据,以及 6 个 3D 生物医学图像数据。 在基于深度学习的人工智能和计算机视觉技术的快速发展下,医学影像分析领域得到了长足的发展,以至于深度学习成为医学图像分析领域中最核心的研究方式之一。医学影像分析中的数据模态、数据集https://www.shangyexinzhi.com/article/4332788.html
5.学习关于2D和3D姿势估计的知识阅读本文并不需要任何有关姿势估计的基础知识。本文从头到尾总结了有关姿态估计的所有关键点和重要主题。文章的开头包括什么是姿态估计以及为什么我们必须了解姿态估计。本文从头部、手部、人体、2D、3D 以及更多姿势估计中描述了多种姿势估计。之后,我们将使用各种公共数据集,用于使用流行算法进行姿势估计。 https://mp.ofweek.com/ai/a556714591307
6.MedMNIST:18个数据集开启2D+3D医学影像之旅,可免费下载机器之心该研究在验证集上采用早停法的 ResNet 为基线方法,对于 2D 数据集选取 ResNet18 和 ResNet50 分别在 28*28 和 224*224(从 28 分辨率进行插值放大)分辨率上进行测试;对于 3D 数据集,选取 2.5D、3D、ACS 卷积的 ResNet18 和 ResNet50 进行测试。同时,该研究还选取了三种自动机器学习模型 auto-sklearn、Authttps://www.jiqizhixin.com/articles/2021-11-04-6
7.MMdetection3dnuscenes数据集mob64ca14031c97的技术博客在这项工作中,我们的目标是通过增强基于激光雷达的算法来处理单个图像输入,从而弥合3D传感和2D传感在3D目标检测方面的性能差距。具体来说,我们进行单目深度估计,并将输入图像提升到点云表示,我们称之为伪激光雷达点云。然后我们可以用我们的伪激光雷达端到端训练一个基于激光雷达的三维检测网络。按照两阶段3D检测算法https://blog.51cto.com/u_16213628/11567377
8.thepairof2Dfaceimageanditscorresponding3DfaceThis repository contains the dataset including the pair of 2D face image and its corresponding 3D face geometry model. - Juyong/3DFacehttps://github.com/Juyong/3DFace
9.DAIR数据集中使用了三个坐标系:世界坐标系(UTM Coord.)、相机坐标系以及激光雷达坐标系。为了获得准确的2D-3D 联合标注结果,需要在不同传感器之间进行校准。 首先,通过棋盘格检测来对相机进行标定获得相机内参数。然后通过车辆定位模块进行 Lidar坐标系到世界坐标系的校准。对于世界坐标到相机坐标系的校准,首先将包含车道和http://thudair.baai.ac.cn/rope
10.与姿态动作相关的数据集介绍由于受到收集数据设备的限制,目前大部分姿态数据都是收集公共视频数据截取得到,因此2D数据集相对来说容易获取,与之相比,3D数据集较难获取。2D数据集有室内场景和室外场景,而3D目前只有室内场景。 ms coco 地址:http://cocodataset.org/#download 样本数:>= 30W https://www.jianshu.com/p/cfae23ae64f1
11.学习报告:机器人抓取中物体定位位姿估计和抓取估计算法综述基于对应关系的目标6D 位姿估计涉及在观察到的输入数据和现有完整 3D 对象模型之间寻找对应关系的方法。 当我们想基于2D RGB图像解决这个问题时,需要找到现有3D模型的2D像素和3D点之间的对应关系。然后通过 Perspective-n-Point (PnP) 算法计算出位姿信息。 当要从深度图像中提取的 3D 点云来进行位姿估计时,要找到https://www.scholat.com/teamwork/teamwork/showPostMessage.html?id=10653
12.NVIDIA赋能Cyanpuppets打造实时2D视频生成3D骨骼AI转换KIRI Engine 的核心价值不仅在于用更低的成本为 3D 开发者提供 3D 重建工具,更在于通过快速增长的用户在云端积累海量 3D 数据集。随着 AI 带来的创作变革,AI 生成 3D 模型将会是下一个生成式 AI 的主战场,而高度标准化的 3D 数据集是 AI 生成 3D 模型的必要条件。在生成式 AI 全面到来的时代,KIRI 正在面https://blogs.nvidia.cn/?p=84558
13.基于深度学习的医学影像处理(1)2D vs 3D 在医学影像领域,有些数据并不是单纯的二维图像,有大量的三维数据,比如MRI和CT数据。而深度学习的图像处理技术现在大多数还是针对二维图像而言的。如何对这些三维数据进行建模,并使用深度学习的方式进行训练,是一个非常有挑战性的事情。 (2)迁移学习 https://bmci.hdu.edu.cn/2022/0915/c7486a156946/page.htm
14.comsol后处理——结果分析和绘图教程.ppt2D绘图(huì tú)组和绘图(huì tú)类型 第十一页,共24页。 2D散射(sǎnshè)面和3D散射(sǎnshè)体在2D面或3D体上绘制(huìzhì)散点图 第十二页,共24页。 1D绘图(huì tú)组和绘图(huì tú)类型 第十三页,共24页。 切面(qiēmiàn)图 切面图需要将数据集和绘图组相结合 可以在1D、2D、3D点https://max.book118.com/html/2021/1022/7106063106004025.shtm
15.今日CV计算机视觉论文速览第128期Mon,10Jun2019特别是,CPD Net被证明具有理论上的保证,可以学习连续位移矢量函数,这可以进一步避免像以前的工作那样施加额外的参数平滑约束。我们的实验验证了CPD Net在各种2D 3D数据集上非刚性点集配准的出色表现,即使存在明显的位移噪声,异常值和缺失点。我们的代码是可用的https://www.cnblogs.com/Tom-Ren/p/11054595.html