
摘要
孪生追踪器将目标追踪问题转化为在当前帧中模板与候选区域之间的相似性估计。从数学角度看,相似性函数成功的关键要素之一是平移等变性(translation equivariance)。若网络架构不具备平移等变性,则在训练过程中会引入位置偏差,导致目标位置信息难以从特征空间中恢复。在现实场景中,目标不仅会发生平移,还可能经历旋转、缩放等多种变换。若模型缺乏处理这些变换的内在机制,相似性度量性能将显著下降。本文聚焦于缩放变换,旨在为孪生网络引入额外的内置缩放等变性(scale equivariance),以预先捕捉目标在尺度上的自然变化。我们建立了缩放等变孪生追踪器的理论框架,并提出一种简洁通用的方法,可使大量现有追踪器具备缩放等变性。基于该方法,我们提出了SE-SiamFC,即一种遵循该设计原则的SiamFC缩放等变变体。我们在OTB和VOT基准数据集,以及合成生成的T-MNIST和S-MNIST数据集上进行了实验。实验结果表明,引入内置的缩放等变性对视觉目标追踪具有显著的提升作用。