3 个月前
SwinTrack:一种用于Transformer跟踪的简单而强大的基线
Liting Lin, Heng Fan, Zhipeng Zhang, Yong Xu, Haibin Ling

摘要
近年来,Transformer在目标跟踪领域得到了广泛探索,并取得了当前最先进的(SOTA)性能。然而,现有研究主要集中在融合与增强卷积神经网络(CNN)所生成的特征上,而Transformer在表征学习方面的潜力尚未得到充分挖掘。本文旨在通过在经典的孪生网络(Siamese)框架下提出一种简单且高效的全注意力跟踪器——SwinTrack,进一步释放Transformer的潜力。具体而言,SwinTrack在表征学习与特征融合两个环节均采用Transformer架构,相比纯CNN或CNN-Transformer混合框架,能够实现更优的特征交互能力。此外,为进一步提升跟踪的鲁棒性,本文提出一种新颖的运动令牌(motion token),通过嵌入目标的历史运动轨迹来引入时序上下文信息,从而增强跟踪性能。该运动令牌设计轻量化,计算开销几乎可忽略,却带来了显著的性能提升。在全面的实验评估中,SwinTrack在多个主流基准上均超越了现有方法。特别是在具有挑战性的LaSOT数据集上,SwinTrack以0.713的SUC得分创下新纪录,同时在其他多个基准上也取得了SOTA结果。我们期望SwinTrack能成为Transformer在目标跟踪领域的一个坚实基线,推动后续研究的发展。相关代码与实验结果已开源,地址为:https://github.com/LitingLin/SwinTrack。