
視覚的オブジェクト追跡は、特徴抽出、ターゲット情報の統合、バウンディングボックス推定といった複数段階のパイプラインを一般的に採用している。本論文では、このパイプラインを簡素化し、特徴抽出とターゲット情報統合のプロセスを統一するため、Transformerに基づくコンパクトな追跡フレームワーク「MixFormer」を提案する。我々の中心的な設計思想は、アテンション操作の柔軟性を活用し、特徴抽出とターゲット情報統合を同時に行う「Mixed Attention Module(MAM)」を提案することである。この同期モデリング方式により、ターゲット固有の判別性の高い特徴を抽出するとともに、ターゲット領域とサーチ領域間の広範な情報通信を実現できる。MAMを基盤として、複数のMAMをスタックし、上部に局所化ヘッドを配置するだけのシンプルな構成で、MixFormer追跡器を構築する。具体的には、階層型追跡器であるMixCvTと非階層型追跡器であるMixViTの2種類のMixFormer追跡器を実装した。これらの追跡器に対して、さまざまな事前学習手法を調査し、本研究のMixFormer追跡器における教師あり事前学習と自己教師あり事前学習の間で異なる挙動が生じることを明らかにした。さらに、マスクされた事前学習をMixFormer追跡器に拡張し、競争力のある「TrackMAE」事前学習手法を設計した。また、オンライン追跡中に複数のターゲットテンプレートを扱う際の計算コストを低減するため、MAM内に非対称アテンションスキームを導入し、高品質なテンプレートを選択する効果的なスコア予測モジュールを提案した。本研究のMixFormer追跡器は、LaSOT、TrackingNet、VOT2020、GOT-10k、OTB100、UAV123を含む7つの追跡ベンチマークにおいて、新たなSOTA(最先端)性能を達成した。特に、MixViT-LはLaSOTでAUC 73.3%、TrackingNetで86.1%、VOT2020でEAO 0.584、GOT-10kでAO 75.7%を達成した。コードおよび学習済みモデルは、https://github.com/MCG-NJU/MixFormer にて公開されている。