6 个月前

摘要

自引入以来，Transformer架构在众多任务中展现了卓越的性能。近年来，视觉领域也日益关注其在图像分类、目标检测等任务中的应用。然而，尽管这一趋势持续升温，基于Transformer的高精度、高效率多目标跟踪（Multiple-Object Tracking, MOT）方法仍未得到充分发展。我们认为，直接采用具有二次复杂度的Transformer架构，并辅以初始化噪声不足的稀疏查询，对MOT任务并非最优方案。为此，我们提出TransCenter——一种基于Transformer的多目标跟踪架构，通过密集表征实现对所有目标的精准跟踪，同时保持合理的运行效率。在方法设计上，我们引入了两类查询机制：一是与图像相关的密集检测查询，二是由我们精心设计的查询学习网络（Query Learning Network, QLN）生成的高效稀疏跟踪查询。一方面，密集的图像相关检测查询通过密集热图输出，能够全局且鲁棒地推断目标位置；另一方面，稀疏跟踪查询在TransCenter解码器中与图像特征高效交互，实现跨时间维度的目标关联。实验结果表明，TransCenter在两个标准MOT基准测试中，于公开（public）与私有（private）两种跟踪设置下均显著优于当前最先进的方法，性能提升尤为突出。此外，通过广泛的消融实验以及与更朴素基线方法和同期工作的对比，验证了TransCenter在准确率与效率方面的优越性。出于科研共享的目的，相关代码已公开发布于GitHub：https://github.com/yihongxu/transcenter。

源 PDF