
摘要
观察到在图像分类任务中学习到的语义特征和在相似度匹配任务中学习到的外观特征可以相互补充,我们构建了一个双分支Siamese网络,命名为SA-Siam,用于实时目标跟踪。SA-Siam由一个语义分支和一个外观分支组成,每个分支都是一个基于相似度学习的Siamese网络。SA-Siam的一个重要设计选择是分别训练这两个分支,以保持两种类型特征的异质性。此外,我们为语义分支提出了一种通道注意力机制。根据目标位置周围的通道激活情况计算通道权重。虽然继承自SiamFC \cite{SiamFC} 的架构使我们的跟踪器能够在实时以上运行,但双分支设计和注意力机制显著提升了跟踪性能。在OTB-2013/50/100基准测试中,所提出的SA-Siam大幅超越了所有其他实时跟踪器。