苹果联合学界提出“生成多平面图像”方法,用最少修改让2D生成对抗网络实现3D感知

在生成高质量图像方面,生成对抗网络(GAN,GenerativeAdversarialNets)在近几年取得了令人印象深刻的进展。

这些进步大多集中在生成器的输出空间和给定的数据集设置相同方面,这些输出通常是图像,有时也是3D卷形式。

而最新的研究主要体现在生成与现有的训练数据不同的新输出上。这包括为一类对象生成3D几何图形和相应的纹理的方法,给定的数据集只包含广泛可用的单视图图像。没有使用多视图图像或3D几何图形来监督3D感知GAN的训练。

为了从这种有限的监督形式中学习3D几何图形,之前的研究通常会结合三维感知归纳偏差,如三维体素网格或使用渲染引擎的隐式表示。

然而,提高这些方法的结果质量仍然具有挑战性:3D感知的归纳偏差通常是内存密集型的显式或隐式3D卷,并且渲染通常需要计算。此外,从2DGAN中获得的经验教训往往不能直接转移,因为生成器的输出甚至其整个结构都必须进行调整。

这就提出了一个问题:让现有的2D生成对抗网络3D感知,需要真正做些什么?

为了回答这个问题,本次苹果联合学界希望以最少方式修改现有的2DGAN,并建立一个有效的推理和训练程序。

首先对GAN的概念做一简单介绍。据维基百科了解,“GAN是一类机器学习框架,由生成器和鉴别器两个神经网络在游戏中相互竞争,鉴别器对生成器产生的欺骗样本进行检测,使用零和博弈的形式,其中一个代理的收益是另一个代理的损失。这一对抗性概念最初被认为是无监督学习生成模型的一种形式,但它也被证实对半监督学习、完全监督学习和强化学习有用。”

本次研究人员选择了一种被广泛使用的高清图像合成方法StyleGANv2。对此,研究者在论文中表示:“StyleGANv2有一个额外的好处,即许多训练检查点都是公开可用的。”

StyleGANv2发布于2020年,是StyleGAN(2018年12月推出)的升级版。StyleGAN主要体现人脸属性,像脸型的表情、朝向、肤色、光照等多方面容貌姿态信息。

通过输入不同参数,可以使StyleGAN生成精细程度不同的各种人脸“Style”。另外,该模型也可以生成动物、汽车等图像。值得一提的是,由于StyleGAN可以对生成的图像进行细致调整,从而更容易生成足够真实的假图像。该技术的一些潜在有害用途一直存在争议。

回到一开始提出的问题,让现有的2D生成对抗网络3D感知需要什么?

本次研究团队在论文中表示:“只有两个修改是绝对必要的:1.一个多平面图像(MPI,MultiPlaneImage)样式生成器分支,它生成一组基于其深度的Alpha映射。2.一个姿势调节的鉴别器。更具体地说,我们为StyleGANv2开发了一个新的生成器分支,它会产生一组类似于MPI的正面平行的Alpha映射。这是第一个证明MPI可以作为无条件的3D感知生成模型的场景表示的研究。”

据了解,区别于生成器和鉴别器一同调整的情况,新分支是从零进行训练,并且,结合Alpha映射与MPI渲染中的单一图像输出,还可得到多种视图的3D感知生成。

虽然Alpha映射遮挡的解决还存在一定限制,但其地图数量和渲染都比较有优势,甚至在训练和推理方便也有差别,可缓解记忆问题。

“我们将这种生成输出的方法称作‘生成多平面图像’(GMPI,GenerativeMultiPlaneImage)。”研究人员在论文中表示。他们还提到,虽然这两种调整在事后看起来很直观,但令人惊讶的是,一个具有基于其深度的平面和使用相机姿态信息的Alpha地图,对3D感知的归纳偏差是足够的。

另外,即便修改Alpha映射的另一个归纳偏差有效,但对获得3D感知并不是必要的。

总的来说,本次研究团队的贡献主要体现在两方面:1.使用标准单视图2D图像数据集,训练类似MPI的3D感知生成模型;2.在深度上的Alpha平面或一个可学习的令牌和相机姿态上的鉴别器,足以使2DGAN转向3D感知。

此外,团队还研究了在三个高分辨率数据集(FFHQ、AFHQv2和MetFaces)上编码3D感知归纳偏差的方法。同时也对其他信息提供了改进,但这些对3D感知并不是严格必要的。

最后,研究人员希望GMPI的简单性,能对解决遮挡推理等工作的限制提供帮助。

THE END
1.天工一刻一文看懂3D大模型“纯原生”3D生成方案与通用大模型思路类似,采用端到端方案,首先使用海量3D数据集训练大模型,然后以前馈(feed-forward)方案生成3D模型。 (“纯原生”3D大模型路径代表研究,来自论文《A Comprehensive Survey on 3D Content Generation》) 这一路径的代表玩家毫无疑问有OpenAI——Scaling Law与大模型领域的坚定支持者。https://www.csdn.net/article/2024-07-31/140813818
2.使用Python从2D图像进行3D重建过程详解使用Python从2D图像进行3D重建过程详解 2D图像的三维重建是从一组2D图像中创建对象或场景的三维模型的过程。这个技术广泛应用于计算机视觉、机器人技术和虚拟现实等领域。 在本文中,我们将解释如何使用Python执行从2D图像到三维重建的过程。我们将使用TempleRing数据集作为示例,逐步演示这个过程。该数据集包含了在对象周围https://www.elecfans.com/d/2331603.html
3.3D目标检测数据集KITTI(标签格式解析3D框可视化点云转图像kitti 3D数据集的基本情况: KITTI整个数据集是在德国卡尔斯鲁厄采集的,采集时长6小时。KITTI官网放出的数据大约占采集全部的25%,去除了测试集中相关的数据片段,按场景可以分为“道路”、“城市”、“住宅区”、“校园”和“行人”5类。 传感器配置: https://developer.aliyun.com/article/1376108
4.MedMNIST:18个数据集开启2D+3D医学影像之旅,可免费下载MedMNIST v2医学图像数据集已经发布,相较 MedMNIST v1,MedMNISTv2新增了 2 个 2D 生物图像数据,以及 6 个 3D 生物医学图像数据。 在基于深度学习的人工智能和计算机视觉技术的快速发展下,医学影像分析领域得到了长足的发展,以至于深度学习成为医学图像分析领域中最核心的研究方式之一。医学影像分析中的数据模态、数据集https://www.shangyexinzhi.com/article/4332788.html
5.学习关于2D和3D姿势估计的知识阅读本文并不需要任何有关姿势估计的基础知识。本文从头到尾总结了有关姿态估计的所有关键点和重要主题。文章的开头包括什么是姿态估计以及为什么我们必须了解姿态估计。本文从头部、手部、人体、2D、3D 以及更多姿势估计中描述了多种姿势估计。之后,我们将使用各种公共数据集,用于使用流行算法进行姿势估计。 https://mp.ofweek.com/ai/a556714591307
6.MedMNIST:18个数据集开启2D+3D医学影像之旅,可免费下载机器之心该研究在验证集上采用早停法的 ResNet 为基线方法,对于 2D 数据集选取 ResNet18 和 ResNet50 分别在 28*28 和 224*224(从 28 分辨率进行插值放大)分辨率上进行测试;对于 3D 数据集,选取 2.5D、3D、ACS 卷积的 ResNet18 和 ResNet50 进行测试。同时,该研究还选取了三种自动机器学习模型 auto-sklearn、Authttps://www.jiqizhixin.com/articles/2021-11-04-6
7.MMdetection3dnuscenes数据集mob64ca14031c97的技术博客在这项工作中,我们的目标是通过增强基于激光雷达的算法来处理单个图像输入,从而弥合3D传感和2D传感在3D目标检测方面的性能差距。具体来说,我们进行单目深度估计,并将输入图像提升到点云表示,我们称之为伪激光雷达点云。然后我们可以用我们的伪激光雷达端到端训练一个基于激光雷达的三维检测网络。按照两阶段3D检测算法https://blog.51cto.com/u_16213628/11567377
8.thepairof2Dfaceimageanditscorresponding3DfaceThis repository contains the dataset including the pair of 2D face image and its corresponding 3D face geometry model. - Juyong/3DFacehttps://github.com/Juyong/3DFace
9.DAIR数据集中使用了三个坐标系:世界坐标系(UTM Coord.)、相机坐标系以及激光雷达坐标系。为了获得准确的2D-3D 联合标注结果,需要在不同传感器之间进行校准。 首先,通过棋盘格检测来对相机进行标定获得相机内参数。然后通过车辆定位模块进行 Lidar坐标系到世界坐标系的校准。对于世界坐标到相机坐标系的校准,首先将包含车道和http://thudair.baai.ac.cn/rope
10.与姿态动作相关的数据集介绍由于受到收集数据设备的限制,目前大部分姿态数据都是收集公共视频数据截取得到,因此2D数据集相对来说容易获取,与之相比,3D数据集较难获取。2D数据集有室内场景和室外场景,而3D目前只有室内场景。 ms coco 地址:http://cocodataset.org/#download 样本数:>= 30W https://www.jianshu.com/p/cfae23ae64f1
11.学习报告:机器人抓取中物体定位位姿估计和抓取估计算法综述基于对应关系的目标6D 位姿估计涉及在观察到的输入数据和现有完整 3D 对象模型之间寻找对应关系的方法。 当我们想基于2D RGB图像解决这个问题时,需要找到现有3D模型的2D像素和3D点之间的对应关系。然后通过 Perspective-n-Point (PnP) 算法计算出位姿信息。 当要从深度图像中提取的 3D 点云来进行位姿估计时,要找到https://www.scholat.com/teamwork/teamwork/showPostMessage.html?id=10653
12.NVIDIA赋能Cyanpuppets打造实时2D视频生成3D骨骼AI转换KIRI Engine 的核心价值不仅在于用更低的成本为 3D 开发者提供 3D 重建工具,更在于通过快速增长的用户在云端积累海量 3D 数据集。随着 AI 带来的创作变革,AI 生成 3D 模型将会是下一个生成式 AI 的主战场,而高度标准化的 3D 数据集是 AI 生成 3D 模型的必要条件。在生成式 AI 全面到来的时代,KIRI 正在面https://blogs.nvidia.cn/?p=84558
13.基于深度学习的医学影像处理(1)2D vs 3D 在医学影像领域,有些数据并不是单纯的二维图像,有大量的三维数据,比如MRI和CT数据。而深度学习的图像处理技术现在大多数还是针对二维图像而言的。如何对这些三维数据进行建模,并使用深度学习的方式进行训练,是一个非常有挑战性的事情。 (2)迁移学习 https://bmci.hdu.edu.cn/2022/0915/c7486a156946/page.htm
14.comsol后处理——结果分析和绘图教程.ppt2D绘图(huì tú)组和绘图(huì tú)类型 第十一页,共24页。 2D散射(sǎnshè)面和3D散射(sǎnshè)体在2D面或3D体上绘制(huìzhì)散点图 第十二页,共24页。 1D绘图(huì tú)组和绘图(huì tú)类型 第十三页,共24页。 切面(qiēmiàn)图 切面图需要将数据集和绘图组相结合 可以在1D、2D、3D点https://max.book118.com/html/2021/1022/7106063106004025.shtm
15.今日CV计算机视觉论文速览第128期Mon,10Jun2019特别是,CPD Net被证明具有理论上的保证,可以学习连续位移矢量函数,这可以进一步避免像以前的工作那样施加额外的参数平滑约束。我们的实验验证了CPD Net在各种2D 3D数据集上非刚性点集配准的出色表现,即使存在明显的位移噪声,异常值和缺失点。我们的代码是可用的https://www.cnblogs.com/Tom-Ren/p/11054595.html