2ヶ月前

Transformer RGBT追跡における空間時間マルチモーダルトークン

Dengdi Sun; Yajie Pan; Andong Lu; Chenglong Li; Bin Luo
Transformer RGBT追跡における空間時間マルチモーダルトークン
要約

多くのRGBT追跡研究はモーダル融合設計に主眼を置き、ターゲットの外観変化の効果的な処理を見落としている。一部の手法では、履歴フレームの導入や初期テンプレートの融合と置換によって時間情報を組み込むことが提案されているが、これらの手法には元のターゲット外観が乱れるリスクがあり、時間とともに誤差が蓄積する可能性がある。これらの制限を緩和するために、我々は新しいTransformer RGBT追跡アプローチを提案する。このアプローチは、静的なマルチモーダルテンプレートとマルチモーダル検索領域から空間・時間的なマルチモーダルトークンを混ぜ合わせることで、ターゲットの外観変化に対処し、堅牢なRGBT追跡を実現する。我々は独立した動的テンプレートトークンを導入し、検索領域との相互作用を通じて時間情報を埋め込み、外観変化に対応する。同時に、初期の静的テンプレートトークンが結合特徴抽出プロセスに引き続き関与することで、伝統的な時間更新によりターゲット外観から逸脱することを防ぐ信頼性のある元のターゲット外観情報が維持される。さらに、注意メカニズムを使用して、補助的なモーダルヒントを取り入れることでマルチモーダルテンプレートトークンのターゲット特徴を強化し、マルチモーダル検索領域トークンとマルチモーダル動的テンプレートトークンが注意メカニズムを通じて相互作用することで、マルチモーダル強化されたターゲット変化情報の伝達が容易になる。提案したモジュールはTransformerバックボーンネットワークに挿入され、結合特徴抽出、検索-テンプレートマッチングおよびクロスモーダル相互作用を継承している。3つのRGBTベンチマークデータセットでの広範な実験結果は、提案したアプローチが他の最先端追跡アルゴリズムと比較して競争力のある性能を維持しつつ、39.1 FPSで動作することを示している。

Transformer RGBT追跡における空間時間マルチモーダルトークン | 最新論文 | HyperAI超神経