8 个月前

摘要

尽管多目标跟踪（MOT）已经取得了显著进展，但其仍受到对先验知识的严重依赖以及局限于预定义类别的限制。相比之下，通用多目标跟踪（GMOT），即对具有相似外观的多个对象进行跟踪，需要较少的目标先验信息，但在视角、光照、遮挡和分辨率等方面的变化带来了挑战。我们的贡献首先在于引入了Refer-GMOT数据集，这是一组视频集合，每个视频都附有对其属性的细粒度文本描述。随后，我们提出了一种基于文本提示的开放词汇表GMOT框架，称为TP-GMOT，该框架能够在没有训练样本的情况下跟踪从未见过的对象类别。在TP-GMOT框架内，我们引入了两个创新组件：(i) TP-OD（基于文本提示的对象检测），用于精确检测具有特定特征的未见过对象；(ii) MAC-SORT（运动-外观成本SORT），这是一种新颖的对象关联方法，能够巧妙地结合运动和外观匹配策略来应对高相似度通用对象的复杂跟踪任务。我们在Refer-GMOT数据集上对这些贡献进行了基准测试以评估GMOT任务的效果。此外，为了评估所提出的TP-GMOT框架的泛化能力和MAC-SORT跟踪器的有效性，我们在DanceTrack和MOT20数据集上进行了消融研究以评估MOT任务的表现。我们的数据集、代码和模型将在以下网址公开提供：https://fsoft-aic.github.io/TP-GMOT

源 PDF 查看代码