重磅！3D多目标跟踪新基线SimpleTrack：理解和重新思考3D多目标跟踪近年来，三维多目标跟踪（MOT）出现|2d-3d数据集_彩票

后台回复【目标跟踪综述】获取单目标、多目标、基于学习方法的领域综述！

近年来，三维多目标跟踪（MOT）出现了许多新的基准和方法，尤其是那些“检测跟踪”范式下的基准和算法。尽管它们取得了进展并发挥了作用，但尚未对其优缺点进行深入分析。本文将当前的3DMOT方法归纳为一个统一的框架，将其分解为四个组成部分：检测预处理、关联、运动模型和生命周期管理。然后，我们将现有算法的失败案例归因于每个组件，并对其进行详细调查。基于分析，论文提出了相应的改进，从而形成了一个强大而简单的基线：SimpleTrack。WaymoOpenDataset和nuScenes上的综合实验结果证明本文的最终方法只需稍作修改就能达到SOTA。此外，论文采取了额外的步骤，重新思考当前的基准测试是否真正反映了算法应对现实挑战的能力。深入研究了现有基准的细节，发现了一些有趣的事实。最后，分析了SimpleTrack中剩余故障的分布和原因，并提出了3DMOT的未来方向。

多目标跟踪（MOT）是计算机视觉中的一项综合任务，它结合了定位和识别两个方面。鉴于MOT系统的复杂性，它通常涉及许多相互关联的部分，例如检测的选择、数据关联、对象运动的建模等。每个模块都有其特殊的处理方式，可以显著影响整个系统的性能。因此，论文提出了3DMOT中的哪些组件发挥了最重要的作用，以及如何改进它们？

考虑到这些目标，论文重新审视了当前的3DMOT算法。这些方法大多采用“检测跟踪”范式，直接从3D探测器获取边界框，并跨帧构建轨迹。本文首先将它们分解为四个单独的模块，并对每个模块进行检查：输入检测的预处理、运动模型、关联和生命周期管理。基于此模块化框架，将3DMOT的故障案例定位并归因于相应的组件，并发现了以前设计中忽略的几个问题。

首先，论文发现不准确的输入检测可能会污染关联，然而，单纯地按分数阈值对其进行删减将牺牲召回。其次，需要仔细设计两个3D边界框之间定义的相似性度量，无论是基于距离的还是简单的IoU都不能很好地工作。第三，物体在三维空间的运动比在二维图像空间的运动更容易预测，因此，运动模型预测和较差观测（低分数检测）之间的一致性很可能表明物体的存在。根据这些观察结果，论文提出了几个简单但不平凡的解决方案。对WaymoOpenDataset和nuScenes的评估表明，我们的最终方法“SimpleTrack”在3DMOT算法中具有竞争力。除了分析3DMOT算法外，还反思了当前的基准测试，强调在评估中需要高频检测和正确处理输出轨迹。为了更好地理解本文方法的上限，根据ID-switch和MOTA度量进一步分解剩余的错误，这些观察结果可以激发更好的算法和基准设计。

大多数3DMOT方法[3、10、28、37、43、44]都采用“检测跟踪”框架，首先说下具有代表性的3DMOT工作，然后强调3D和2DMOT之间的联系和区别！

2DMOT与3DMOT共享数据关联的共同目标。一些值得注意的尝试包括概率方法、动态规划、二部匹配、最小成本流、凸优化和条件随机场。随着深度学习的快速发展，许多方法学习匹配机制，其他方法学习关联度量。与3DMOT类似，许多2D跟踪器也受益于增强的检测质量，并采用“检测跟踪”模式。然而，由于比例变化，RGB图像上的对象大小不同；因此，它们对于关联和运动模型来说更加困难。但2DMOT可以轻松利用丰富的RGB信息并使用外观模型，这在基于激光雷达的3DMOT中是不可用的。总之，MOT方法的设计应该适合每种模式的特点。

多目标跟踪的pipeline主要有：

在本节中，论文分析和改进3DMOT管道中的每个模块，为了更好地澄清，通过将其从SimpleTrack的最终变体中删除来消除每个修改的影响。默认情况下，消融实验都在使用基于CenterPoint检测上进行验证。

运动模型描述轨迹的运动状态，它们主要用于预测下一帧中对象的候选状态，这是下一个关联步骤的proposal。此外，像卡尔曼滤波器这样的运动模型也可以潜在地细化对象的状态。通常，3DMOT有两种常用的运动模型：卡尔曼滤波器（KF），例如AB3DMOT和恒速模型（CV）使用探测器预测的速度，例如CenterPoint。KF的优点是它可以利用来自多帧的信息，并在面对低质量检测时提供更平滑的结果。同时，CV通过其明确的速度预测更好地处理突然和不可预测的运动，但其对运动平滑的效果有限。表3和表4中，在WOD和nuScenes上比较了这两种情况，这提供了明确的证据。

总之，由于运动的可预测性更强，卡尔曼滤波器更适合于高频情况，而恒速模型对于具有明确速度预测的低频情况更为稳健，由于推断速度对于检测器来说还不常见，因此我们在不损失通用性的情况下对SimpleTrack采用卡尔曼滤波器。

基于IoU的和基于距离的关联度量是3DMOT中的两种流行选择。如图三所示，它们具有典型但不同的失效模式，IoU计算边界框之间的重叠比率，因此，如果检测和运动预测之间的IoU都为零，则无法将它们连接起来，这在轨迹开始或具有突然运动的对象上很常见（图3的左侧）。基于距离的度量的代表是马氏[10]和L2[43]距离。使用较大的距离阈值，它们可以处理基于IOU的度量的故障情况，但可能不够敏感，无法进行低质量的附近检测。我们在图3右侧解释了这些场景。在第k帧上，蓝色运动预测与绿色误报检测的L2距离较小，因此它被错误关联。通过这样的例子得出结论，基于距离的度量缺乏方向区分，这正是基于IOU的度量的优势。为了更好地利用两个世界，论文建议将GIoU[31]推广到3D以进行关联。本文设置GIoU>0.5作为WOD和nuScenes上每个类别的对象的阈值，以使这对关联进入后续匹配步骤。

一般来说，检测和轨迹之间的匹配有两种方法：1）将问题表述为二部匹配问题，然后使用匈牙利算法求解。2）通过贪婪算法迭代关联最近的对。论文发现这两种方法与关联度量紧密耦合：基于IoU的度量对两者都很好，而基于距离的度量更喜欢贪婪算法。假设原因是基于距离的度量范围很大，因此优化全局最优解的方法，如匈牙利算法，可能会受到异常值的不利影响。在图5中，对WOD上匹配策略和关联度量之间的所有组合进行了实验。如前所述，IoU和GIoU对于这两种策略都运行良好，而Mahalanobis和L2距离需要贪婪算法，这也与之前工作的结论一致！

论文分析了WOD2上的所有ID-switch，并将其分为两组，如图6所示：错误关联和提前终止。与许多工作的主要焦点（关联）不同，本文发现提前终止实际上是ID-switch的主要原因（95%的车辆和91%的行人）。在早期终止中，许多终止是由点云稀疏性和空间遮挡引起的。为了缓解这个问题，利用免费但有效的信息：运动模型和低分数检测之间的一致性。这些边界框通常具有较低的定位质量，但如果它们与运动预测一致，则强烈表明存在目标，然后用这些延长tracklet的使用寿命。

图7直观地解释了“TwostageAssociation”和传统的“OnestageAssiation”之间的差异，假设T=0.5是过滤检测边界框的原始得分阈值，跟踪器将忽略第3帧和第4帧得分分别为0.4和0.2的框，这些框将因连续帧中缺少匹配而消失，最终导致最终的ID切换。相比之下，论文的两阶段关联可以保持tracklet的活动状态。在表5中，提出的方法在不损害MOTA的情况下大大减少了IDSwitch，这证明了SimpleTrack通过更灵活地使用检测来有效地延长生命周期。

论文将上述技术集成到统一的SimpleTrack中，并演示它们如何逐步提高性能。图8说明了3DMOT跟踪器的性能如何从基线提高，在WOD上，尽管车辆和行人的特性有很大不同，但每种技术都适用于两者。

表6和表7显示了SimpleTrack相比于其它方案的性能对比：

除了上述技术之外，论文还深入研究了基准测试的设计，该基准极大地促进了研究的发展，并指导了算法的设计。对比WOD和nuScenes，有以下发现：

此外，它还通过插值对tracklet进行预处理，从而鼓励跟踪器输出反映整个tracklet质量而非帧质量的置信度分数，希望这两个发现能够激励社区重新思考3D跟踪的基准和评估协议。

跟踪通常得益于较高的帧率，因为在较短的间隔内运动更容易预测。论文在表8的两个基准上比较了点云、注释和常见MOT帧速率的频率。在nuScenes上，它有20Hz点云，但只有2Hz注释。这导致大多数常见的探测器和3DMOT算法在2Hz下工作，即使它们实际上利用了所有20HzLiDAR数据并且运行速度超过2Hz。因此，本文对高频数据的影响进行如下研究。虽然高频（HF）帧的信息更丰富，但合并它们并不容易，因为nuScenes只对低频帧进行评估，称之为“评估帧”。在表9中，简单地使用所有10Hz帧并不能提高性能。这是因为高频帧上的低质量检测可能会偏离跟踪器，并影响采样评估帧的性能。为了克服这个问题，论文首先在HF帧上应用“一级关联”，其中只考虑分数大于Th=0.5的边界框，并将其用于运动模型更新。然后，采用“两阶段关联”，使用得分大于Tl=0.1的方框来扩展轨迹。如表9所示，论文的方法显著改进了AMOTA和ID-switch。甚至尝试将帧速率增加到20Hz，但由于偏差问题，这几乎没有带来进一步的改进。因此，SimpleTrack在最终提交给测试集时使用了10Hz设置。

nuScenes中使用的AMOTA度量计算不同召回阈值下的平均MOTAR，这需要跟踪程序输出所有分数段的框。为了进一步提高召回率，论文在没有关联检测边界框的情况下输出帧和轨迹的运动模型预测，并根据经验为它们分配比任何其他检测更低的分数。在论文中，它们的分数是0.01×SP，其中SP是前一帧中tracklet的置信分数。如表10所示，这个简单的技巧提高了整体召回率和AMOTA，然而，我们发现提高召回率并不是这种改进的唯一原因。除了边界框之外，运动模型预测的分数也有很大的贡献。这从nuScenes上的评估协议开始，其中他们插入输入tracklet以填充缺失的帧，并用tracklet平均分数更改所有分数，如图9所示。在这种情况下，论文的方法可以明确惩罚低质量tracklet，它通常包含更多由运动模型预测替换的缺失框。总之，nuScenes上的这种插值鼓励追踪器整体处理tracklet质量，并输出校准的质量感知分数。然而，即使对于同一个tracklet，框的质量在不同帧之间也可能有很大差异，因此论文建议仅用一个分数来描述tracklet的质量是不完美的。此外，在这个插值步骤中还引入了未来信息，它会改变tracklet结果，这也可能引起人们对评估设置是否仍然完全在线的担忧。

ID转换。论文对ID转换的原因进行了分解，如图6所示。虽然提前终止的比例大大降低，“两阶段关联”的车辆减少了86%，行人减少了70%，但仍占88%SimpleTrack中车辆和行人的其余ID-switch分别有72%的故障案例。

论文检查了这些病例，发现大多数病例是由于长期遮挡或暂时看不见物体而导致的。因此，除了改善关联外，未来可能的工作还可以开发2DMOT[18、19、33、39]中的外观模型，或者在返回后默默地保持状态以重新识别这些对象。

FP和FN。表11中的“GTAll”显示了使用CenterPoint检测的MOT的上限，例如车辆类别，即使使用“GT-All”，假阴性仍为0.215，这是检测FN，在“逐检测跟踪”框架下很难修复。通过比较“GT-All”和SimpleTrack，论文发现跟踪算法本身引入了0.119个假阴性，进一步将其细分如下，“GTOutput”和“GTALL”之间的差异表明，0.043个假阴性是由NMS产生的未初始化轨迹和预处理中的得分阈值引起的，其它来自生命周期管理。“初始化”在输出tracklet之前需要两帧累积，这与AB3DMOT[37]相同。这会产生0.005个微小的假阴性，论文的“输出”逻辑使用检测分数来决定输出与否，并采用假阴性数0.076。

本文将“检测跟踪”3DMOT算法解耦为几个组件，并分析其典型故障。基于这些见解，论文提出了使用NMS、GIoU和两阶段关联的相应增强，从而实现了SimpleTrack。此外，还重新考虑了nuScenes中的帧速率和插值预处理。论文最终指出了“检测跟踪”3DMOT未来可能的几个方向，然而，除了“基于检测的跟踪”范式之外，还有很多具有巨大潜力的分支。为了获得更好的边界框质量，3DMOT可以使用长期信息对其进行优化，这已被证明优于仅基于局部帧的检测。未来的工作还可以将当前的手动基于规则的方法转换为基于学习的方法，例如，使用基于学习的帧内机制替换NMS，使用帧间推理替换3DGIoU和生命周期管理等。

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、多传感器融合、SLAM、光流估计、轨迹预测、高精地图、规划控制、AI模型部署落地等方向；

THE END

重磅！3D多目标跟踪新基线SimpleTrack：理解和重新思考3D多目标跟踪近年来，三维多目标跟踪（MOT）出现

苹果联合学界提出“生成多平面图像”方法，用最少修改让2D生成对抗网络实现3D感知

超全的3D视觉数据集汇总腾讯云开发者社区

5秒完成3D生成，合成数据集已开源，上交港中文框架超越Instant3D图像3D上海交通大学新浪科技

重磅！3D多目标跟踪新基线SimpleTrack：理解和重新思考3D多目标跟踪近年来，三维多目标跟踪（MOT）出现

3D视觉：一张图像如何看出3D效果？澎湃号·湃客澎湃新闻

手把手教你：在Python中通过机器学习实现人体姿势估计

泌尿外科领域3D重建和CAD模型技术CAD前列腺外科模型泌尿重建技术图像医生数据同事患者

OmniSurf3D:3D表面纹理分析