
追跡は通常、特徴抽出、目標情報統合、およびバウンディングボックス推定の多段階パイプラインを使用します。このパイプラインを簡素化し、特徴抽出と目標情報統合のプロセスを統一するために、トランスフォーマーに基づいたコンパクトな追跡フレームワークであるMixFormerを提案します。私たちの中心的な設計思想は、注意操作の柔軟性を利用することであり、同時に特徴抽出と目標情報統合を行うための混合注意モジュール(Mixed Attention Module: MAM)を提案しています。この同期モデリングスキームにより、目標固有の識別特徴を抽出し、目標と探索領域間で広範な通信を行うことが可能になります。MAMに基づいて、進行型パッチ埋め込みを使用して複数のMAMを積み重ね、その上に位置特定ヘッドを配置することで、MixFormer追跡フレームワークを単純に構築しました。さらに、オンライン追跡中に複数の目標テンプレートを取り扱うために、計算コストを削減するための非対称注意スキームをMAM内で考案し、高品質なテンプレートを選択するための効果的なスコア予測モジュールを提案しました。私たちのMixFormerはLaSOT, TrackingNet, VOT2020, GOT-10k, UAV123という5つの追跡ベンチマークで新たな最先端性能を達成しています。特に、MixFormer-LはLaSOTでNPスコア79.9%、TrackingNetで88.9%、VOT2020でEAO 0.555を達成しています。また、同時に特徴抽出と情報統合の効果性について詳細な消去法研究を行いました。コードと学習済みモデルは公開されており、https://github.com/MCG-NJU/MixFormer からアクセスできます。