
要約
相関演算は、特に近年注目されているシアンセー(Siamese)ベースのトラッキング手法において、重要な役割を果たしている。相関演算は、テンプレートと検索領域間の類似性を考慮するシンプルな特徴融合手法である。しかし、相関演算自体は局所的な線形マッチングプロセスに過ぎないため、意味情報が損なわれやすく、局所最適解に陥りやすいという課題がある。これは高精度なトラッキングアルゴリズム設計におけるバッフルネック(瓶頸)となる可能性がある。相関よりも優れた特徴融合手法は存在するだろうか?この問題に対処するため、Transformerの構造に着想を得て、本研究では注目(attention)に基づく新しい特徴融合ネットワークを提案する。この手法は、注目機構のみを用いてテンプレートと検索領域の特徴を効果的に統合する。具体的には、自己注意(self-attention)に基づくエゴ・コンテキスト拡張モジュールと、クロス注意(cross-attention)に基づくクロス特徴拡張モジュールを採用している。最終的に、シアンセー型の特徴抽出バックボーン、設計された注目ベースの融合機構、および分類・回帰ヘッドを統合したTransformerトラッキング(TransT)手法を提案する。実験の結果、本手法は6つの困難なデータセットにおいて非常に有望な性能を達成しており、特に大規模なLaSOT、TrackingNet、GOT-10kベンチマークにおいて顕著な成果を示した。本トラッカーはGPU上で約50fpsの実行速度を実現している。コードとモデルは、https://github.com/chenxin-dlut/TransT にて公開されている。