2 个月前

弥合端到端与非端到端多目标跟踪之间的差距

Feng Yan; Weixin Luo; Yujie Zhong; Yiyang Gan; Lin Ma

摘要

现有的端到端多目标跟踪（e2e-MOT）方法尚未超越非端到端的检测跟踪方法。一个潜在的原因是在训练过程中其标签分配策略始终将被跟踪对象与跟踪查询绑定，然后将少数新出现的对象分配给检测查询。通过一对一的二分匹配，这种分配会导致训练不平衡，即检测查询的正样本稀缺，特别是在封闭场景中，因为大多数新出现的对象在视频开始时就登场了。因此，与其它检测跟踪方法相比，e2e-MOT 更容易产生没有更新或重新初始化的跟踪终端。为了解决这一问题，我们提出了 Co-MOT，这是一种简单而有效的方法，通过引入一种新颖的合作竞争标签分配策略和影子概念来促进 e2e-MOT 的发展。具体而言，在为中间解码器训练进行标签分配时，我们将被跟踪对象添加到检测查询的匹配目标中。对于查询初始化，我们通过一组有限干扰的影子副本扩展每个查询。经过广泛的消融实验，Co-MOT 在不增加额外成本的情况下实现了卓越的性能，例如在 DanceTrack 数据集上达到 69.4% 的 HOTA 分数，在 BDD100K 数据集上达到 52.8% 的 TETA 分数。令人印象深刻的是，Co-MOT 只需 MOTRv2 的 38% 浮点运算量即可实现类似的性能，从而使得推理速度提高了 1.4 倍。