17 天前

TransCenter:用于多目标跟踪的具有密集表示的Transformer

Yihong Xu, Yutong Ban, Guillaume Delorme, Chuang Gan, Daniela Rus, Xavier Alameda-Pineda
TransCenter:用于多目标跟踪的具有密集表示的Transformer
摘要

自引入以来,Transformer架构在众多任务中展现了卓越的性能。近年来,视觉领域也日益关注其在图像分类、目标检测等任务中的应用。然而,尽管这一趋势持续升温,基于Transformer的高精度、高效率多目标跟踪(Multiple-Object Tracking, MOT)方法仍未得到充分发展。我们认为,直接采用具有二次复杂度的Transformer架构,并辅以初始化噪声不足的稀疏查询,对MOT任务并非最优方案。为此,我们提出TransCenter——一种基于Transformer的多目标跟踪架构,通过密集表征实现对所有目标的精准跟踪,同时保持合理的运行效率。在方法设计上,我们引入了两类查询机制:一是与图像相关的密集检测查询,二是由我们精心设计的查询学习网络(Query Learning Network, QLN)生成的高效稀疏跟踪查询。一方面,密集的图像相关检测查询通过密集热图输出,能够全局且鲁棒地推断目标位置;另一方面,稀疏跟踪查询在TransCenter解码器中与图像特征高效交互,实现跨时间维度的目标关联。实验结果表明,TransCenter在两个标准MOT基准测试中,于公开(public)与私有(private)两种跟踪设置下均显著优于当前最先进的方法,性能提升尤为突出。此外,通过广泛的消融实验以及与更朴素基线方法和同期工作的对比,验证了TransCenter在准确率与效率方面的优越性。出于科研共享的目的,相关代码已公开发布于GitHub:https://github.com/yihongxu/transcenter。