
摘要
多目标跟踪(MOT)作为计算机视觉领域的一个关键且极具前景的分支,近年来得到了广泛关注。传统的封闭词汇表多目标跟踪(CV-MOT)方法旨在跟踪预定义类别的对象。最近,一些开放词汇表多目标跟踪(OV-MOT)方法成功解决了未知类别对象的跟踪问题。然而,我们发现CV-MOT和OV-MOT方法各自在对方的任务中难以表现出色。在本文中,我们提出了一种统一框架——检测到的一切关联(AED),该框架通过集成任何现成的检测器同时解决CV-MOT和OV-MOT问题,并支持未知类别。与现有的基于检测的MOT方法不同,AED摒弃了先验知识(如运动线索),完全依赖于高度鲁棒的特征学习来处理OV-MOT任务中的复杂轨迹,同时在CV-MOT任务中保持优异性能。具体而言,我们将关联任务建模为相似度解码问题,并提出了一种以关联为中心的学习机制的相似度解码器(sim-decoder)。该相似度解码器从三个方面计算相似度:空间、时间和跨片段。随后,以关联为中心的学习机制利用这三方面的相似度,确保提取的特征适合连续跟踪,并且足够鲁棒以推广到未知类别。与现有的强大OV-MOT和CV-MOT方法相比,AED在TAO、SportsMOT和DanceTrack数据集上无需任何先验知识即可实现优越性能。我们的代码已开源,可访问https://github.com/balabooooo/AED获取。