17日前

RGB-T追跡における検索領域相互作用とテンプレートの統合

{Si Liu, Jizhong Han, Jiao Dai, Xiaolin Wei, Xiaoming Wei, Junshi Huang, Fengguang Peng, Zizheng Xun, Tianrui Hui}
RGB-T追跡における検索領域相互作用とテンプレートの統合
要約

RGB-Tトラッキングは、RGBと赤外線(TIR)モダリティの相互強化および補完的な特性を活用し、さまざまなシナリオにおいてトラッキングプロセスの性能を向上させることを目的としています。この分野において、クロスモダリティ間の相互作用が鍵となる要素です。従来の手法の多くは、RGBとTIRの検索領域特徴を直接連結することで粗い相互作用を実現していますが、これにより冗長な背景ノイズが導入されるという問題があります。また、多くの他の手法では検索フレームから候補ボックスをサンプリングし、RGBとTIRのボックスペアを独立して処理し、さまざまな融合手法を適用しています。しかし、このようなアプローチはクロスモダリティ相互作用を局所的な領域内に限定し、十分な文脈モデリングが行われないという課題を抱えています。これらの制約を緩和するために、本研究では新たな「テンプレートブリッジドサーチ領域相互作用(Template-Bridged Search region Interaction; TBSI)」モジュールを提案します。本モジュールは、テンプレートを媒体として用いることで、RGBとTIRのサーチ領域間のクロスモダリティ相互作用を実現します。具体的には、ターゲットに関連するオブジェクトおよび環境の文脈情報を集約・配布することで、双方向の情報交換を促進します。さらに、テンプレート自体も、この媒体を通じて豊かなマルチモーダル文脈情報を更新することで、より適応的な特徴表現を可能にします。本TBSIモジュールは、ViT(Vision Transformer)バックボーンに統合され、統合的な特徴抽出、サーチ-テンプレートマッチング、およびクロスモダリティ相互作用を一括して実行します。3つの代表的なRGB-Tトラッキングベンチマークにおける広範な実験結果から、本手法が新たなSOTA(State-of-the-Art)性能を達成することが示されました。実装コードは、https://github.com/RyanHTR/TBSI にて公開されています。