8ヶ月前

オブジェクト追跡

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Simiao Lai Chang Liu Jiawen Zhu Ben Kang Yang Liu Dong Wang Huchuan Lu

概要

既存のRGB-T追跡アルゴリズムは、Transformerアーキテクチャのグローバルな相互作用能力と広範な事前学習モデルを活用することで、著しい進歩を遂げています。しかし、これらの手法は主に画像ペアの外観マッチングに依存しており、注意メカニズムの本質的な高二次複雑さにより、時間情報の利用が制約されています。最近登場した状態空間モデルMamba（マンバ）が、印象的な長系列モデリング能力と線形計算複雑さで知られていることを受けて、本研究では純粋なMambaベースのフレームワーク（MambaVT）を革新的に提案し、堅牢な可視-熱赤外線追跡のために空間・時間的なコンテキストモデリングを完全に活用します。具体的には、目標の外観変動に対応するための長距離クロスフレーム統合コンポーネントを開発し、局所的な時間的位置手がかりに基づいて次の目標状態を予測するための短期履歴軌道プロンプトを導入しました。広範な実験結果は、視覚MambaがRGB-T追跡において大きな潜在力を有することを示しており、MambaVTは4つの主要ベンチマークで最先端の性能を達成しつつ、低い計算コストを必要としています。本研究は単純でありながら強力な基準となり、今後のこの分野での研究を刺激することを目指しています。コードと事前学習モデルは公開される予定です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

オブジェクト追跡

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Simiao Lai Chang Liu Jiawen Zhu Ben Kang Yang Liu Dong Wang Huchuan Lu

概要

既存のRGB-T追跡アルゴリズムは、Transformerアーキテクチャのグローバルな相互作用能力と広範な事前学習モデルを活用することで、著しい進歩を遂げています。しかし、これらの手法は主に画像ペアの外観マッチングに依存しており、注意メカニズムの本質的な高二次複雑さにより、時間情報の利用が制約されています。最近登場した状態空間モデルMamba（マンバ）が、印象的な長系列モデリング能力と線形計算複雑さで知られていることを受けて、本研究では純粋なMambaベースのフレームワーク（MambaVT）を革新的に提案し、堅牢な可視-熱赤外線追跡のために空間・時間的なコンテキストモデリングを完全に活用します。具体的には、目標の外観変動に対応するための長距離クロスフレーム統合コンポーネントを開発し、局所的な時間的位置手がかりに基づいて次の目標状態を予測するための短期履歴軌道プロンプトを導入しました。広範な実験結果は、視覚MambaがRGB-T追跡において大きな潜在力を有することを示しており、MambaVTは4つの主要ベンチマークで最先端の性能を達成しつつ、低い計算コストを必要としています。本研究は単純でありながら強力な基準となり、今後のこの分野での研究を刺激することを目指しています。コードと事前学習モデルは公開される予定です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています