重磅!3D多目标跟踪新基线SimpleTrack:理解和重新思考3D多目标跟踪近年来,三维多目标跟踪(MOT)出现

后台回复【目标跟踪综述】获取单目标、多目标、基于学习方法的领域综述!

近年来,三维多目标跟踪(MOT)出现了许多新的基准和方法,尤其是那些“检测跟踪”范式下的基准和算法。尽管它们取得了进展并发挥了作用,但尚未对其优缺点进行深入分析。本文将当前的3DMOT方法归纳为一个统一的框架,将其分解为四个组成部分:检测预处理、关联、运动模型和生命周期管理。然后,我们将现有算法的失败案例归因于每个组件,并对其进行详细调查。基于分析,论文提出了相应的改进,从而形成了一个强大而简单的基线:SimpleTrack。WaymoOpenDataset和nuScenes上的综合实验结果证明本文的最终方法只需稍作修改就能达到SOTA。此外,论文采取了额外的步骤,重新思考当前的基准测试是否真正反映了算法应对现实挑战的能力。深入研究了现有基准的细节,发现了一些有趣的事实。最后,分析了SimpleTrack中剩余故障的分布和原因,并提出了3DMOT的未来方向。

多目标跟踪(MOT)是计算机视觉中的一项综合任务,它结合了定位和识别两个方面。鉴于MOT系统的复杂性,它通常涉及许多相互关联的部分,例如检测的选择、数据关联、对象运动的建模等。每个模块都有其特殊的处理方式,可以显著影响整个系统的性能。因此,论文提出了3DMOT中的哪些组件发挥了最重要的作用,以及如何改进它们?

考虑到这些目标,论文重新审视了当前的3DMOT算法。这些方法大多采用“检测跟踪”范式,直接从3D探测器获取边界框,并跨帧构建轨迹。本文首先将它们分解为四个单独的模块,并对每个模块进行检查:输入检测的预处理、运动模型、关联和生命周期管理。基于此模块化框架,将3DMOT的故障案例定位并归因于相应的组件,并发现了以前设计中忽略的几个问题。

首先,论文发现不准确的输入检测可能会污染关联,然而,单纯地按分数阈值对其进行删减将牺牲召回。其次,需要仔细设计两个3D边界框之间定义的相似性度量,无论是基于距离的还是简单的IoU都不能很好地工作。第三,物体在三维空间的运动比在二维图像空间的运动更容易预测,因此,运动模型预测和较差观测(低分数检测)之间的一致性很可能表明物体的存在。根据这些观察结果,论文提出了几个简单但不平凡的解决方案。对WaymoOpenDataset和nuScenes的评估表明,我们的最终方法“SimpleTrack”在3DMOT算法中具有竞争力。除了分析3DMOT算法外,还反思了当前的基准测试,强调在评估中需要高频检测和正确处理输出轨迹。为了更好地理解本文方法的上限,根据ID-switch和MOTA度量进一步分解剩余的错误,这些观察结果可以激发更好的算法和基准设计。

大多数3DMOT方法[3、10、28、37、43、44]都采用“检测跟踪”框架,首先说下具有代表性的3DMOT工作,然后强调3D和2DMOT之间的联系和区别!

2DMOT与3DMOT共享数据关联的共同目标。一些值得注意的尝试包括概率方法、动态规划、二部匹配、最小成本流、凸优化和条件随机场。随着深度学习的快速发展,许多方法学习匹配机制,其他方法学习关联度量。与3DMOT类似,许多2D跟踪器也受益于增强的检测质量,并采用“检测跟踪”模式。然而,由于比例变化,RGB图像上的对象大小不同;因此,它们对于关联和运动模型来说更加困难。但2DMOT可以轻松利用丰富的RGB信息并使用外观模型,这在基于激光雷达的3DMOT中是不可用的。总之,MOT方法的设计应该适合每种模式的特点。

多目标跟踪的pipeline主要有:

在本节中,论文分析和改进3DMOT管道中的每个模块,为了更好地澄清,通过将其从SimpleTrack的最终变体中删除来消除每个修改的影响。默认情况下,消融实验都在使用基于CenterPoint检测上进行验证。

运动模型描述轨迹的运动状态,它们主要用于预测下一帧中对象的候选状态,这是下一个关联步骤的proposal。此外,像卡尔曼滤波器这样的运动模型也可以潜在地细化对象的状态。通常,3DMOT有两种常用的运动模型:卡尔曼滤波器(KF),例如AB3DMOT和恒速模型(CV)使用探测器预测的速度,例如CenterPoint。KF的优点是它可以利用来自多帧的信息,并在面对低质量检测时提供更平滑的结果。同时,CV通过其明确的速度预测更好地处理突然和不可预测的运动,但其对运动平滑的效果有限。表3和表4中,在WOD和nuScenes上比较了这两种情况,这提供了明确的证据。

总之,由于运动的可预测性更强,卡尔曼滤波器更适合于高频情况,而恒速模型对于具有明确速度预测的低频情况更为稳健,由于推断速度对于检测器来说还不常见,因此我们在不损失通用性的情况下对SimpleTrack采用卡尔曼滤波器。

基于IoU的和基于距离的关联度量是3DMOT中的两种流行选择。如图三所示,它们具有典型但不同的失效模式,IoU计算边界框之间的重叠比率,因此,如果检测和运动预测之间的IoU都为零,则无法将它们连接起来,这在轨迹开始或具有突然运动的对象上很常见(图3的左侧)。基于距离的度量的代表是马氏[10]和L2[43]距离。使用较大的距离阈值,它们可以处理基于IOU的度量的故障情况,但可能不够敏感,无法进行低质量的附近检测。我们在图3右侧解释了这些场景。在第k帧上,蓝色运动预测与绿色误报检测的L2距离较小,因此它被错误关联。通过这样的例子得出结论,基于距离的度量缺乏方向区分,这正是基于IOU的度量的优势。为了更好地利用两个世界,论文建议将GIoU[31]推广到3D以进行关联。本文设置GIoU>0.5作为WOD和nuScenes上每个类别的对象的阈值,以使这对关联进入后续匹配步骤。

一般来说,检测和轨迹之间的匹配有两种方法:1)将问题表述为二部匹配问题,然后使用匈牙利算法求解。2)通过贪婪算法迭代关联最近的对。论文发现这两种方法与关联度量紧密耦合:基于IoU的度量对两者都很好,而基于距离的度量更喜欢贪婪算法。假设原因是基于距离的度量范围很大,因此优化全局最优解的方法,如匈牙利算法,可能会受到异常值的不利影响。在图5中,对WOD上匹配策略和关联度量之间的所有组合进行了实验。如前所述,IoU和GIoU对于这两种策略都运行良好,而Mahalanobis和L2距离需要贪婪算法,这也与之前工作的结论一致!

论文分析了WOD2上的所有ID-switch,并将其分为两组,如图6所示:错误关联和提前终止。与许多工作的主要焦点(关联)不同,本文发现提前终止实际上是ID-switch的主要原因(95%的车辆和91%的行人)。在早期终止中,许多终止是由点云稀疏性和空间遮挡引起的。为了缓解这个问题,利用免费但有效的信息:运动模型和低分数检测之间的一致性。这些边界框通常具有较低的定位质量,但如果它们与运动预测一致,则强烈表明存在目标,然后用这些延长tracklet的使用寿命。

图7直观地解释了“TwostageAssociation”和传统的“OnestageAssiation”之间的差异,假设T=0.5是过滤检测边界框的原始得分阈值,跟踪器将忽略第3帧和第4帧得分分别为0.4和0.2的框,这些框将因连续帧中缺少匹配而消失,最终导致最终的ID切换。相比之下,论文的两阶段关联可以保持tracklet的活动状态。在表5中,提出的方法在不损害MOTA的情况下大大减少了IDSwitch,这证明了SimpleTrack通过更灵活地使用检测来有效地延长生命周期。

论文将上述技术集成到统一的SimpleTrack中,并演示它们如何逐步提高性能。图8说明了3DMOT跟踪器的性能如何从基线提高,在WOD上,尽管车辆和行人的特性有很大不同,但每种技术都适用于两者。

表6和表7显示了SimpleTrack相比于其它方案的性能对比:

除了上述技术之外,论文还深入研究了基准测试的设计,该基准极大地促进了研究的发展,并指导了算法的设计。对比WOD和nuScenes,有以下发现:

此外,它还通过插值对tracklet进行预处理,从而鼓励跟踪器输出反映整个tracklet质量而非帧质量的置信度分数,希望这两个发现能够激励社区重新思考3D跟踪的基准和评估协议。

跟踪通常得益于较高的帧率,因为在较短的间隔内运动更容易预测。论文在表8的两个基准上比较了点云、注释和常见MOT帧速率的频率。在nuScenes上,它有20Hz点云,但只有2Hz注释。这导致大多数常见的探测器和3DMOT算法在2Hz下工作,即使它们实际上利用了所有20HzLiDAR数据并且运行速度超过2Hz。因此,本文对高频数据的影响进行如下研究。虽然高频(HF)帧的信息更丰富,但合并它们并不容易,因为nuScenes只对低频帧进行评估,称之为“评估帧”。在表9中,简单地使用所有10Hz帧并不能提高性能。这是因为高频帧上的低质量检测可能会偏离跟踪器,并影响采样评估帧的性能。为了克服这个问题,论文首先在HF帧上应用“一级关联”,其中只考虑分数大于Th=0.5的边界框,并将其用于运动模型更新。然后,采用“两阶段关联”,使用得分大于Tl=0.1的方框来扩展轨迹。如表9所示,论文的方法显著改进了AMOTA和ID-switch。甚至尝试将帧速率增加到20Hz,但由于偏差问题,这几乎没有带来进一步的改进。因此,SimpleTrack在最终提交给测试集时使用了10Hz设置。

nuScenes中使用的AMOTA度量计算不同召回阈值下的平均MOTAR,这需要跟踪程序输出所有分数段的框。为了进一步提高召回率,论文在没有关联检测边界框的情况下输出帧和轨迹的运动模型预测,并根据经验为它们分配比任何其他检测更低的分数。在论文中,它们的分数是0.01×SP,其中SP是前一帧中tracklet的置信分数。如表10所示,这个简单的技巧提高了整体召回率和AMOTA,然而,我们发现提高召回率并不是这种改进的唯一原因。除了边界框之外,运动模型预测的分数也有很大的贡献。这从nuScenes上的评估协议开始,其中他们插入输入tracklet以填充缺失的帧,并用tracklet平均分数更改所有分数,如图9所示。在这种情况下,论文的方法可以明确惩罚低质量tracklet,它通常包含更多由运动模型预测替换的缺失框。总之,nuScenes上的这种插值鼓励追踪器整体处理tracklet质量,并输出校准的质量感知分数。然而,即使对于同一个tracklet,框的质量在不同帧之间也可能有很大差异,因此论文建议仅用一个分数来描述tracklet的质量是不完美的。此外,在这个插值步骤中还引入了未来信息,它会改变tracklet结果,这也可能引起人们对评估设置是否仍然完全在线的担忧。

ID转换。论文对ID转换的原因进行了分解,如图6所示。虽然提前终止的比例大大降低,“两阶段关联”的车辆减少了86%,行人减少了70%,但仍占88%SimpleTrack中车辆和行人的其余ID-switch分别有72%的故障案例。

论文检查了这些病例,发现大多数病例是由于长期遮挡或暂时看不见物体而导致的。因此,除了改善关联外,未来可能的工作还可以开发2DMOT[18、19、33、39]中的外观模型,或者在返回后默默地保持状态以重新识别这些对象。

FP和FN。表11中的“GTAll”显示了使用CenterPoint检测的MOT的上限,例如车辆类别,即使使用“GT-All”,假阴性仍为0.215,这是检测FN,在“逐检测跟踪”框架下很难修复。通过比较“GT-All”和SimpleTrack,论文发现跟踪算法本身引入了0.119个假阴性,进一步将其细分如下,“GTOutput”和“GTALL”之间的差异表明,0.043个假阴性是由NMS产生的未初始化轨迹和预处理中的得分阈值引起的,其它来自生命周期管理。“初始化”在输出tracklet之前需要两帧累积,这与AB3DMOT[37]相同。这会产生0.005个微小的假阴性,论文的“输出”逻辑使用检测分数来决定输出与否,并采用假阴性数0.076。

本文将“检测跟踪”3DMOT算法解耦为几个组件,并分析其典型故障。基于这些见解,论文提出了使用NMS、GIoU和两阶段关联的相应增强,从而实现了SimpleTrack。此外,还重新考虑了nuScenes中的帧速率和插值预处理。论文最终指出了“检测跟踪”3DMOT未来可能的几个方向,然而,除了“基于检测的跟踪”范式之外,还有很多具有巨大潜力的分支。为了获得更好的边界框质量,3DMOT可以使用长期信息对其进行优化,这已被证明优于仅基于局部帧的检测。未来的工作还可以将当前的手动基于规则的方法转换为基于学习的方法,例如,使用基于学习的帧内机制替换NMS,使用帧间推理替换3DGIoU和生命周期管理等。

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、多传感器融合、SLAM、光流估计、轨迹预测、高精地图、规划控制、AI模型部署落地等方向;

THE END
1.天工一刻一文看懂3D大模型“纯原生”3D生成方案与通用大模型思路类似,采用端到端方案,首先使用海量3D数据集训练大模型,然后以前馈(feed-forward)方案生成3D模型。 (“纯原生”3D大模型路径代表研究,来自论文《A Comprehensive Survey on 3D Content Generation》) 这一路径的代表玩家毫无疑问有OpenAI——Scaling Law与大模型领域的坚定支持者。https://www.csdn.net/article/2024-07-31/140813818
2.使用Python从2D图像进行3D重建过程详解使用Python从2D图像进行3D重建过程详解 2D图像的三维重建是从一组2D图像中创建对象或场景的三维模型的过程。这个技术广泛应用于计算机视觉、机器人技术和虚拟现实等领域。 在本文中,我们将解释如何使用Python执行从2D图像到三维重建的过程。我们将使用TempleRing数据集作为示例,逐步演示这个过程。该数据集包含了在对象周围https://www.elecfans.com/d/2331603.html
3.3D目标检测数据集KITTI(标签格式解析3D框可视化点云转图像kitti 3D数据集的基本情况: KITTI整个数据集是在德国卡尔斯鲁厄采集的,采集时长6小时。KITTI官网放出的数据大约占采集全部的25%,去除了测试集中相关的数据片段,按场景可以分为“道路”、“城市”、“住宅区”、“校园”和“行人”5类。 传感器配置: https://developer.aliyun.com/article/1376108
4.MedMNIST:18个数据集开启2D+3D医学影像之旅,可免费下载MedMNIST v2医学图像数据集已经发布,相较 MedMNIST v1,MedMNISTv2新增了 2 个 2D 生物图像数据,以及 6 个 3D 生物医学图像数据。 在基于深度学习的人工智能和计算机视觉技术的快速发展下,医学影像分析领域得到了长足的发展,以至于深度学习成为医学图像分析领域中最核心的研究方式之一。医学影像分析中的数据模态、数据集https://www.shangyexinzhi.com/article/4332788.html
5.学习关于2D和3D姿势估计的知识阅读本文并不需要任何有关姿势估计的基础知识。本文从头到尾总结了有关姿态估计的所有关键点和重要主题。文章的开头包括什么是姿态估计以及为什么我们必须了解姿态估计。本文从头部、手部、人体、2D、3D 以及更多姿势估计中描述了多种姿势估计。之后,我们将使用各种公共数据集,用于使用流行算法进行姿势估计。 https://mp.ofweek.com/ai/a556714591307
6.MedMNIST:18个数据集开启2D+3D医学影像之旅,可免费下载机器之心该研究在验证集上采用早停法的 ResNet 为基线方法,对于 2D 数据集选取 ResNet18 和 ResNet50 分别在 28*28 和 224*224(从 28 分辨率进行插值放大)分辨率上进行测试;对于 3D 数据集,选取 2.5D、3D、ACS 卷积的 ResNet18 和 ResNet50 进行测试。同时,该研究还选取了三种自动机器学习模型 auto-sklearn、Authttps://www.jiqizhixin.com/articles/2021-11-04-6
7.MMdetection3dnuscenes数据集mob64ca14031c97的技术博客在这项工作中,我们的目标是通过增强基于激光雷达的算法来处理单个图像输入,从而弥合3D传感和2D传感在3D目标检测方面的性能差距。具体来说,我们进行单目深度估计,并将输入图像提升到点云表示,我们称之为伪激光雷达点云。然后我们可以用我们的伪激光雷达端到端训练一个基于激光雷达的三维检测网络。按照两阶段3D检测算法https://blog.51cto.com/u_16213628/11567377
8.thepairof2Dfaceimageanditscorresponding3DfaceThis repository contains the dataset including the pair of 2D face image and its corresponding 3D face geometry model. - Juyong/3DFacehttps://github.com/Juyong/3DFace
9.DAIR数据集中使用了三个坐标系:世界坐标系(UTM Coord.)、相机坐标系以及激光雷达坐标系。为了获得准确的2D-3D 联合标注结果,需要在不同传感器之间进行校准。 首先,通过棋盘格检测来对相机进行标定获得相机内参数。然后通过车辆定位模块进行 Lidar坐标系到世界坐标系的校准。对于世界坐标到相机坐标系的校准,首先将包含车道和http://thudair.baai.ac.cn/rope
10.与姿态动作相关的数据集介绍由于受到收集数据设备的限制,目前大部分姿态数据都是收集公共视频数据截取得到,因此2D数据集相对来说容易获取,与之相比,3D数据集较难获取。2D数据集有室内场景和室外场景,而3D目前只有室内场景。 ms coco 地址:http://cocodataset.org/#download 样本数:>= 30W https://www.jianshu.com/p/cfae23ae64f1
11.学习报告:机器人抓取中物体定位位姿估计和抓取估计算法综述基于对应关系的目标6D 位姿估计涉及在观察到的输入数据和现有完整 3D 对象模型之间寻找对应关系的方法。 当我们想基于2D RGB图像解决这个问题时,需要找到现有3D模型的2D像素和3D点之间的对应关系。然后通过 Perspective-n-Point (PnP) 算法计算出位姿信息。 当要从深度图像中提取的 3D 点云来进行位姿估计时,要找到https://www.scholat.com/teamwork/teamwork/showPostMessage.html?id=10653
12.NVIDIA赋能Cyanpuppets打造实时2D视频生成3D骨骼AI转换KIRI Engine 的核心价值不仅在于用更低的成本为 3D 开发者提供 3D 重建工具,更在于通过快速增长的用户在云端积累海量 3D 数据集。随着 AI 带来的创作变革,AI 生成 3D 模型将会是下一个生成式 AI 的主战场,而高度标准化的 3D 数据集是 AI 生成 3D 模型的必要条件。在生成式 AI 全面到来的时代,KIRI 正在面https://blogs.nvidia.cn/?p=84558
13.基于深度学习的医学影像处理(1)2D vs 3D 在医学影像领域,有些数据并不是单纯的二维图像,有大量的三维数据,比如MRI和CT数据。而深度学习的图像处理技术现在大多数还是针对二维图像而言的。如何对这些三维数据进行建模,并使用深度学习的方式进行训练,是一个非常有挑战性的事情。 (2)迁移学习 https://bmci.hdu.edu.cn/2022/0915/c7486a156946/page.htm
14.comsol后处理——结果分析和绘图教程.ppt2D绘图(huì tú)组和绘图(huì tú)类型 第十一页,共24页。 2D散射(sǎnshè)面和3D散射(sǎnshè)体在2D面或3D体上绘制(huìzhì)散点图 第十二页,共24页。 1D绘图(huì tú)组和绘图(huì tú)类型 第十三页,共24页。 切面(qiēmiàn)图 切面图需要将数据集和绘图组相结合 可以在1D、2D、3D点https://max.book118.com/html/2021/1022/7106063106004025.shtm
15.今日CV计算机视觉论文速览第128期Mon,10Jun2019特别是,CPD Net被证明具有理论上的保证,可以学习连续位移矢量函数,这可以进一步避免像以前的工作那样施加额外的参数平滑约束。我们的实验验证了CPD Net在各种2D 3D数据集上非刚性点集配准的出色表现,即使存在明显的位移噪声,异常值和缺失点。我们的代码是可用的https://www.cnblogs.com/Tom-Ren/p/11054595.html