
大多数深度跟踪器仍然遵循暹罗范式(Siamese paradigms)的指导,并使用仅包含目标而没有任何上下文信息的模板,这使得跟踪器难以应对较大的外观变化、快速的目标移动以及相似物体的吸引。为了解决上述问题,我们提出了一种长期上下文注意力(Long-Term Context Attention, LCA)模块,该模块可以在长时间帧中对目标及其上下文进行广泛的信息融合,并在增强目标特征的同时计算目标相关性。完整的上下文信息不仅包括目标的位置,还包括目标周围的环境状态。LCA利用前一帧中的目标状态排除相似物体和复杂背景的干扰,从而准确地定位目标,提高跟踪器的鲁棒性和回归精度。通过将LCA模块嵌入Transformer中,我们构建了一个具有目标感知骨干网络的强大在线跟踪器,命名为TATrack。此外,我们还提出了一种基于历史信息分类置信度的动态在线更新算法,该算法不会增加额外的计算负担。我们的跟踪器在多个基准测试中取得了最先进的性能,在LaSOT、TrackingNet和GOT-10k上的AUC为71.1%、NP为89.3%、AO为73.0%。代码和训练模型可在https://github.com/hekaijie123/TATrack 获取。翻訳:多くの深層追跡器は依然としてシアンネーズ・パラダイム(Siamese paradigms)の指導に従い、目標のみを含むコンテクスト情報のないテンプレートを使用しています。これにより、追跡器は大きな外観変化、急速な目標移動、および類似物体からの誘引に対処することが困難になります。上記の問題を緩和するため、私たちは長期間コンテクスト注意(Long-Term Context Attention, LCA)モジュールを提案します。このモジュールは、長時間フレームで目標とそのコンテクストに関する広範な情報融合を行い、目標特徴を強化しながら目標相関性を計算します。完全なコンテクスト情報には、目標の位置だけでなく、目標周囲の状態も含まれます。LCAは前のフレームから得られる目標状態を利用して、類似物体や複雑な背景からの干渉を排除し、目標を正確に位置づけます。これにより追跡器の堅牢性と回帰精度が向上します。LCAモジュールをTransformerに埋め込むことで、目標認識機能を持つ強力なオンライン追跡システム(TATrack)を開発しました。さらに、歴史的情報の分類確信度に基づく動的なオンライン更新アルゴリズムを提案しており、これは追加の計算負荷なしで実現可能です。私たちの追跡器は複数のベンチマークテストで最先端の性能を達成しており、LaSOTではAUCが71.1%、NPが89.3%、AOが73.0%となっています。コードと学習済みモデルは https://github.com/hekaijie123/TATrack から入手できます。