
要約
最新のRGB-Tトラッカーは、モダリティ融合を通じて著しい成果を上げています。しかし、これらのトラッカーはしばしば時間情報を軽視するか、または完全に活用できず、マルチモーダル情報と時間情報の効果的なバランスが取れていない場合があります。この問題に対処するために、我々は新しいクロスフュージョンRGB-Tトラッキングアーキテクチャ(CFBT)を提案します。CFBTは、追跡における複数のモーダルの完全な参加を確保しながら、時間情報を動的に融合します。CFBTの有効性は、新しく設計された3つのクロス空間時間情報融合モジュールに依存しています:クロス空間時間拡張融合(CSTAF)、クロス空間時間補完融合(CSTCF)、およびデュアルストリーム空間時間アダプター(DSTA)。CSTAFはクロスアテンションメカニズムを用いてテンプレートの特徴表現を包括的に強化します。CSTCFは異なるブランチ間の補完情報を活用して目標特徴を強化し、背景特徴を抑制します。DSTAはアダプター概念を取り入れて、トランスフォーマーレイヤー内で複数のブランチから補完情報を適応的に融合し、RGBモーダルを媒体として使用します。これらの巧妙な多角的融合は総モーダルパラメータの0.3%未満しか追加しませんが、マルチモーダル情報と時間情報の効率的なバランスを実現しています。3つの人気のあるRGB-T追跡ベンチマークでの広範な実験により、我々の方法が新たな最先端性能を達成することが示されています。