超全的3D视觉数据集汇总腾讯云开发者社区

Cityscapes是一个较为新的大规模数据集,它包含50个不同城市的街道场景中记录的各种立体视频序列,除了一组较大的20000弱注释帧外,还具有5000帧的高质量像素级注释。因此,数据集比以前的类似尝试要大一个数量级。Cityscapes数据集旨在评价视觉算法在城市场景语义理解中的性能:像素级、实例级和全景语义标注;支持旨在开发大量(弱)注释数据的研究,例如用于训练深层神经网络包含城市场景下双目图像及像素级语义分割标注。

对牛津的一部分连续的道路进行了上百次数据采集,收集到了多种天气、行人和交通情况下的数据,也有建筑和道路施工时的数据。包含全景图像、激光雷达点云、导航信息。

百度Apollo开源的数据集,包含3D目标检测、语义分割、目标跟踪、立体视觉、场景识别等各类信息,数据量非常大!

其中:

道路目标检测:为公共汽车、红绿灯、交通标志、人、自行车、卡车、汽车、汽车、火车和骑手在100000张图像上标注的二维边框。

实例分割:使用像素级和丰富的实例级注释,浏览超过10000个不同的图像。

可驾驶区域:从100000张图片中学习复杂的驾驶决策。

Waymo数据集包含3000段驾驶记录,时长共16.7小时,平均每段长度约为20秒。整个数据集一共包含60万帧,共有大约2500万3D边界框、2200万2D边界框。

nuScenes数据集是自动驾驶公司nuTonomy建立的大规模自动驾驶数据集,该数据集不仅包含了Camera和Lidar,还记录了雷达数据。这个数据集由1000个场景组成(即scenes,这就是该数据集名字的由来),每个scenes长度为20秒,包含了各种各样的情景。在每一个scenes中,有40个关键帧(keyframes),也就是每秒钟有2个关键帧,其他的帧为sweeps。关键帧经过手工的标注,每一帧中都有了若干个annotation,标注的形式为boundingbox。不仅标注了大小、范围、还有类别、可见程度等等。这个数据集不久前发布了一个teaser版本(包含100个scenes),正式版(1000个scenes)的数据要2019年发布。这个数据集在sample的数量上、标注的形式上都非常好,记录了车的自身运动轨迹(相对于全局坐标),包含了非常多的传感器,可以用来实现更加智慧的识别算法和感知融合算法。

华盛顿大学3D相机标定数据库。

Alarge-scaleRGB-Ddataset。该数据集包含10800个对齐的三维全景视图(RGB+每个像素的深度),来自90个建筑规模场景的194400个RGB+深度图像。

单目图像3D模型匹配数据。

高质量室内场景三维重建数据。数据集中包含了18个高真实感的室内场景重建数据集Replica。每个场景由一个密集的网格、高分辨率高动态范围(HDR)纹理、每个基本语义类和实例信息以及平面镜和玻璃反射镜组成。副本的目标是使机器学习(ML)研究能够依赖于世界上视觉上、几何上和语义上真实的生成模型。

将CAD模型与扫描数据对齐的数据集(适用于3DObjectPoseEstimation,3DReconstruction)

对于公共数据集,我们为注释提供:

用于Scan2CAD基准测试的附加注释隐藏测试集包括:

在现实世界中为视觉任务设置的车辆检测数据库。

EHF数据集(丰富姿态的手部和脸部)包含一个受试者穿着最少的衣服的100个精确的帧,执行各种身体姿势,包括自然的手指关节,以及一些面部关节和表情。

主要包含多视图数据集、3D物体的识别分割、场景识别、3D模型匹配、vSALM等各个方向的数据。

数据集中主要包含立体图像、同步IMU测量以及精确的运动和真实地面结构。

THE END
1.天工一刻一文看懂3D大模型“纯原生”3D生成方案与通用大模型思路类似,采用端到端方案,首先使用海量3D数据集训练大模型,然后以前馈(feed-forward)方案生成3D模型。 (“纯原生”3D大模型路径代表研究,来自论文《A Comprehensive Survey on 3D Content Generation》) 这一路径的代表玩家毫无疑问有OpenAI——Scaling Law与大模型领域的坚定支持者。https://www.csdn.net/article/2024-07-31/140813818
2.使用Python从2D图像进行3D重建过程详解使用Python从2D图像进行3D重建过程详解 2D图像的三维重建是从一组2D图像中创建对象或场景的三维模型的过程。这个技术广泛应用于计算机视觉、机器人技术和虚拟现实等领域。 在本文中,我们将解释如何使用Python执行从2D图像到三维重建的过程。我们将使用TempleRing数据集作为示例,逐步演示这个过程。该数据集包含了在对象周围https://www.elecfans.com/d/2331603.html
3.3D目标检测数据集KITTI(标签格式解析3D框可视化点云转图像kitti 3D数据集的基本情况: KITTI整个数据集是在德国卡尔斯鲁厄采集的,采集时长6小时。KITTI官网放出的数据大约占采集全部的25%,去除了测试集中相关的数据片段,按场景可以分为“道路”、“城市”、“住宅区”、“校园”和“行人”5类。 传感器配置: https://developer.aliyun.com/article/1376108
4.MedMNIST:18个数据集开启2D+3D医学影像之旅,可免费下载MedMNIST v2医学图像数据集已经发布,相较 MedMNIST v1,MedMNISTv2新增了 2 个 2D 生物图像数据,以及 6 个 3D 生物医学图像数据。 在基于深度学习的人工智能和计算机视觉技术的快速发展下,医学影像分析领域得到了长足的发展,以至于深度学习成为医学图像分析领域中最核心的研究方式之一。医学影像分析中的数据模态、数据集https://www.shangyexinzhi.com/article/4332788.html
5.学习关于2D和3D姿势估计的知识阅读本文并不需要任何有关姿势估计的基础知识。本文从头到尾总结了有关姿态估计的所有关键点和重要主题。文章的开头包括什么是姿态估计以及为什么我们必须了解姿态估计。本文从头部、手部、人体、2D、3D 以及更多姿势估计中描述了多种姿势估计。之后,我们将使用各种公共数据集,用于使用流行算法进行姿势估计。 https://mp.ofweek.com/ai/a556714591307
6.MedMNIST:18个数据集开启2D+3D医学影像之旅,可免费下载机器之心该研究在验证集上采用早停法的 ResNet 为基线方法,对于 2D 数据集选取 ResNet18 和 ResNet50 分别在 28*28 和 224*224(从 28 分辨率进行插值放大)分辨率上进行测试;对于 3D 数据集,选取 2.5D、3D、ACS 卷积的 ResNet18 和 ResNet50 进行测试。同时,该研究还选取了三种自动机器学习模型 auto-sklearn、Authttps://www.jiqizhixin.com/articles/2021-11-04-6
7.MMdetection3dnuscenes数据集mob64ca14031c97的技术博客在这项工作中,我们的目标是通过增强基于激光雷达的算法来处理单个图像输入,从而弥合3D传感和2D传感在3D目标检测方面的性能差距。具体来说,我们进行单目深度估计,并将输入图像提升到点云表示,我们称之为伪激光雷达点云。然后我们可以用我们的伪激光雷达端到端训练一个基于激光雷达的三维检测网络。按照两阶段3D检测算法https://blog.51cto.com/u_16213628/11567377
8.thepairof2Dfaceimageanditscorresponding3DfaceThis repository contains the dataset including the pair of 2D face image and its corresponding 3D face geometry model. - Juyong/3DFacehttps://github.com/Juyong/3DFace
9.DAIR数据集中使用了三个坐标系:世界坐标系(UTM Coord.)、相机坐标系以及激光雷达坐标系。为了获得准确的2D-3D 联合标注结果,需要在不同传感器之间进行校准。 首先,通过棋盘格检测来对相机进行标定获得相机内参数。然后通过车辆定位模块进行 Lidar坐标系到世界坐标系的校准。对于世界坐标到相机坐标系的校准,首先将包含车道和http://thudair.baai.ac.cn/rope
10.与姿态动作相关的数据集介绍由于受到收集数据设备的限制,目前大部分姿态数据都是收集公共视频数据截取得到,因此2D数据集相对来说容易获取,与之相比,3D数据集较难获取。2D数据集有室内场景和室外场景,而3D目前只有室内场景。 ms coco 地址:http://cocodataset.org/#download 样本数:>= 30W https://www.jianshu.com/p/cfae23ae64f1
11.学习报告:机器人抓取中物体定位位姿估计和抓取估计算法综述基于对应关系的目标6D 位姿估计涉及在观察到的输入数据和现有完整 3D 对象模型之间寻找对应关系的方法。 当我们想基于2D RGB图像解决这个问题时,需要找到现有3D模型的2D像素和3D点之间的对应关系。然后通过 Perspective-n-Point (PnP) 算法计算出位姿信息。 当要从深度图像中提取的 3D 点云来进行位姿估计时,要找到https://www.scholat.com/teamwork/teamwork/showPostMessage.html?id=10653
12.NVIDIA赋能Cyanpuppets打造实时2D视频生成3D骨骼AI转换KIRI Engine 的核心价值不仅在于用更低的成本为 3D 开发者提供 3D 重建工具,更在于通过快速增长的用户在云端积累海量 3D 数据集。随着 AI 带来的创作变革,AI 生成 3D 模型将会是下一个生成式 AI 的主战场,而高度标准化的 3D 数据集是 AI 生成 3D 模型的必要条件。在生成式 AI 全面到来的时代,KIRI 正在面https://blogs.nvidia.cn/?p=84558
13.基于深度学习的医学影像处理(1)2D vs 3D 在医学影像领域,有些数据并不是单纯的二维图像,有大量的三维数据,比如MRI和CT数据。而深度学习的图像处理技术现在大多数还是针对二维图像而言的。如何对这些三维数据进行建模,并使用深度学习的方式进行训练,是一个非常有挑战性的事情。 (2)迁移学习 https://bmci.hdu.edu.cn/2022/0915/c7486a156946/page.htm
14.comsol后处理——结果分析和绘图教程.ppt2D绘图(huì tú)组和绘图(huì tú)类型 第十一页,共24页。 2D散射(sǎnshè)面和3D散射(sǎnshè)体在2D面或3D体上绘制(huìzhì)散点图 第十二页,共24页。 1D绘图(huì tú)组和绘图(huì tú)类型 第十三页,共24页。 切面(qiēmiàn)图 切面图需要将数据集和绘图组相结合 可以在1D、2D、3D点https://max.book118.com/html/2021/1022/7106063106004025.shtm
15.今日CV计算机视觉论文速览第128期Mon,10Jun2019特别是,CPD Net被证明具有理论上的保证,可以学习连续位移矢量函数,这可以进一步避免像以前的工作那样施加额外的参数平滑约束。我们的实验验证了CPD Net在各种2D 3D数据集上非刚性点集配准的出色表现,即使存在明显的位移噪声,异常值和缺失点。我们的代码是可用的https://www.cnblogs.com/Tom-Ren/p/11054595.html