
摘要
大多数深度跟踪器仍然遵循暹罗范式(Siamese paradigms)的指导,仅使用包含目标而不含任何上下文信息的模板,这使得跟踪器难以应对较大的外观变化、快速的目标移动以及相似物体的干扰。为了解决上述问题,我们提出了一种长期上下文注意力(Long-term Context Attention, LCA)模块,该模块能够在长时间帧中对目标及其上下文进行广泛的信息融合,并在增强目标特征的同时计算目标相关性。完整的上下文信息不仅包括目标的位置,还包括目标周围的环境状态。LCA利用前一帧中的目标状态来排除相似物体和复杂背景的干扰,从而准确地定位目标,提高跟踪器的鲁棒性和回归精度。通过将LCA模块嵌入Transformer中,我们构建了一个具有目标感知骨干网络的强大在线跟踪器,命名为TATrack。此外,我们还提出了一种基于历史信息分类置信度的动态在线更新算法,该算法不会增加额外的计算负担。我们的跟踪器在多个基准测试中取得了最先进的性能,在LaSOT、TrackingNet和GOT-10k上的AUC分别为71.1%,NP为89.3%,AO为73.0%。代码和训练模型可在https://github.com/hekaijie123/TATrack 获取。