
摘要
在视频目标跟踪任务中,连续帧之间蕴含着丰富的时序上下文信息,然而现有跟踪器对此类时序依赖关系的利用仍显不足。本文通过引入基于Transformer的架构,将视频帧之间的时间上下文关系进行有效建模,从而实现鲁棒的目标跟踪。与自然语言处理任务中传统的Transformer用法不同,我们将其编码器与解码器分离为两个并行分支,并在类Siamese的跟踪框架中进行了精心设计。其中,Transformer编码器通过基于注意力机制的特征增强,有效提升目标模板的质量,有助于生成高质量的跟踪模型;而Transformer解码器则将前序模板中的跟踪线索传播至当前帧,显著优化了目标搜索过程。所提出的Transformer辅助跟踪框架结构简洁,支持端到端训练。得益于所设计的Transformer模块,仅采用简单的Siamese匹配策略即可超越当前最先进的跟踪算法。进一步地,将该Transformer模块与近期先进的判别式跟踪框架相结合,我们的方法在多个主流跟踪基准上取得了多项新的最先进性能记录。