2ヶ月前
MambaVT: 順応的なRGB-T追跡のための時空間文脈モデリング
Simiao Lai; Chang Liu; Jiawen Zhu; Ben Kang; Yang Liu; Dong Wang; Huchuan Lu

要約
既存のRGB-T追跡アルゴリズムは、Transformerアーキテクチャのグローバルな相互作用能力と広範な事前学習モデルを活用することで、著しい進歩を遂げています。しかし、これらの手法は主に画像ペアの外観マッチングに依存しており、注意メカニズムの本質的な高二次複雑さにより、時間情報の利用が制約されています。最近登場した状態空間モデルMamba(マンバ)が、印象的な長系列モデリング能力と線形計算複雑さで知られていることを受けて、本研究では純粋なMambaベースのフレームワーク(MambaVT)を革新的に提案し、堅牢な可視-熱赤外線追跡のために空間・時間的なコンテキストモデリングを完全に活用します。具体的には、目標の外観変動に対応するための長距離クロスフレーム統合コンポーネントを開発し、局所的な時間的位置手がかりに基づいて次の目標状態を予測するための短期履歴軌道プロンプトを導入しました。広範な実験結果は、視覚MambaがRGB-T追跡において大きな潜在力を有することを示しており、MambaVTは4つの主要ベンチマークで最先端の性能を達成しつつ、低い計算コストを必要としています。本研究は単純でありながら強力な基準となり、今後のこの分野での研究を刺激することを目指しています。コードと事前学習モデルは公開される予定です。