3ヶ月前

SwinTrack:Transformerトラッキングのためのシンプルかつ強力なベースライン

Liting Lin, Heng Fan, Zhipeng Zhang, Yong Xu, Haibin Ling
SwinTrack:Transformerトラッキングのためのシンプルかつ強力なベースライン
要約

最近、Transformerは追跡タスクにおいて広く研究され、最先端(SOTA)の性能を示している。しかし、既存の研究は主に畳み込みニューラルネットワーク(CNN)によって生成された特徴の融合と強化に注力しており、Transformerの表現学習における潜在的な能力はまだ十分に探求されていない。本論文では、従来のシアメスフレームワーク内に、シンプルでありながら効率的な完全アテンション型追跡器「SwinTrack」を提案することで、Transformerの力をさらに引き出すことを目的とする。特に、SwinTrackでは表現学習と特徴融合の両方においてTransformerアーキテクチャを活用しており、純粋なCNNまたはCNN-Transformerハイブリッドフレームワークと比較して、追跡に適したより優れた特徴間相互作用を実現する。さらに、追跡のロバスト性を向上させるために、過去のターゲット軌道を埋め込む新しい「運動トークン(motion token)」を導入する。この運動トークンは計算負荷が極めて低く、ほぼ無視できる程度のオーバーヘッドであるが、明確な性能向上をもたらす。包括的な実験の結果、SwinTrackは複数のベンチマークで既存手法を上回り、特に難易度の高いLaSOTベンチマークにおいて0.713のSUCスコアを達成し、新たな記録を樹立した。他のベンチマークでもSOTAの結果を達成している。本研究により、SwinTrackがTransformerを用いた追跡の堅実なベースラインとして機能し、今後の研究の促進に寄与することを期待している。コードおよび実験結果は、https://github.com/LitingLin/SwinTrack にて公開されている。