13 天前

Transformer 与追踪器的结合：利用时序上下文实现鲁棒的视觉追踪

Ning Wang, Wengang Zhou, Jie Wang, Houqaing Li

摘要

在视频目标跟踪任务中，连续帧之间蕴含着丰富的时序上下文信息，然而现有跟踪器对此类时序依赖关系的利用仍显不足。本文通过引入基于Transformer的架构，将视频帧之间的时间上下文关系进行有效建模，从而实现鲁棒的目标跟踪。与自然语言处理任务中传统的Transformer用法不同，我们将其编码器与解码器分离为两个并行分支，并在类Siamese的跟踪框架中进行了精心设计。其中，Transformer编码器通过基于注意力机制的特征增强，有效提升目标模板的质量，有助于生成高质量的跟踪模型；而Transformer解码器则将前序模板中的跟踪线索传播至当前帧，显著优化了目标搜索过程。所提出的Transformer辅助跟踪框架结构简洁，支持端到端训练。得益于所设计的Transformer模块，仅采用简单的Siamese匹配策略即可超越当前最先进的跟踪算法。进一步地，将该Transformer模块与近期先进的判别式跟踪框架相结合，我们的方法在多个主流跟踪基准上取得了多项新的最先进性能记录。