Cityscapes是一个较为新的大规模数据集,它包含50个不同城市的街道场景中记录的各种立体视频序列,除了一组较大的20000弱注释帧外,还具有5000帧的高质量像素级注释。因此,数据集比以前的类似尝试要大一个数量级。Cityscapes数据集旨在评价视觉算法在城市场景语义理解中的性能:像素级、实例级和全景语义标注;支持旨在开发大量(弱)注释数据的研究,例如用于训练深层神经网络包含城市场景下双目图像及像素级语义分割标注。
对牛津的一部分连续的道路进行了上百次数据采集,收集到了多种天气、行人和交通情况下的数据,也有建筑和道路施工时的数据。包含全景图像、激光雷达点云、导航信息。
百度Apollo开源的数据集,包含3D目标检测、语义分割、目标跟踪、立体视觉、场景识别等各类信息,数据量非常大!
其中:
道路目标检测:为公共汽车、红绿灯、交通标志、人、自行车、卡车、汽车、汽车、火车和骑手在100000张图像上标注的二维边框。
实例分割:使用像素级和丰富的实例级注释,浏览超过10000个不同的图像。
可驾驶区域:从100000张图片中学习复杂的驾驶决策。
Waymo数据集包含3000段驾驶记录,时长共16.7小时,平均每段长度约为20秒。整个数据集一共包含60万帧,共有大约2500万3D边界框、2200万2D边界框。
nuScenes数据集是自动驾驶公司nuTonomy建立的大规模自动驾驶数据集,该数据集不仅包含了Camera和Lidar,还记录了雷达数据。这个数据集由1000个场景组成(即scenes,这就是该数据集名字的由来),每个scenes长度为20秒,包含了各种各样的情景。在每一个scenes中,有40个关键帧(keyframes),也就是每秒钟有2个关键帧,其他的帧为sweeps。关键帧经过手工的标注,每一帧中都有了若干个annotation,标注的形式为boundingbox。不仅标注了大小、范围、还有类别、可见程度等等。这个数据集不久前发布了一个teaser版本(包含100个scenes),正式版(1000个scenes)的数据要2019年发布。这个数据集在sample的数量上、标注的形式上都非常好,记录了车的自身运动轨迹(相对于全局坐标),包含了非常多的传感器,可以用来实现更加智慧的识别算法和感知融合算法。
华盛顿大学3D相机标定数据库。
Alarge-scaleRGB-Ddataset。该数据集包含10800个对齐的三维全景视图(RGB+每个像素的深度),来自90个建筑规模场景的194400个RGB+深度图像。
单目图像3D模型匹配数据。
高质量室内场景三维重建数据。数据集中包含了18个高真实感的室内场景重建数据集Replica。每个场景由一个密集的网格、高分辨率高动态范围(HDR)纹理、每个基本语义类和实例信息以及平面镜和玻璃反射镜组成。副本的目标是使机器学习(ML)研究能够依赖于世界上视觉上、几何上和语义上真实的生成模型。
将CAD模型与扫描数据对齐的数据集(适用于3DObjectPoseEstimation,3DReconstruction)
对于公共数据集,我们为注释提供:
用于Scan2CAD基准测试的附加注释隐藏测试集包括:
在现实世界中为视觉任务设置的车辆检测数据库。
EHF数据集(丰富姿态的手部和脸部)包含一个受试者穿着最少的衣服的100个精确的帧,执行各种身体姿势,包括自然的手指关节,以及一些面部关节和表情。
主要包含多视图数据集、3D物体的识别分割、场景识别、3D模型匹配、vSALM等各个方向的数据。
数据集中主要包含立体图像、同步IMU测量以及精确的运动和真实地面结构。