HyperAIHyperAI

Command Palette

Search for a command to run...

RGB-Event Transformerトラッカー向けのクロスモーダル直交高ランク増強

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

概要

本稿では、RGB動画とイベントデータからのクロスモーダルオブジェクト追跡の問題に取り組む。複雑なクロスモーダル融合ネットワークを構築するのではなく、事前学習済みのビジョンTransformer(ViT)が有する大きな潜在能力に着目する。特に、両モーダル間の顕著な分布ギャップを埋めるために、ViTが能動的に異なるモーダル間のトークン相互作用を促進するよう設計された「プラグアンドプレイ型」の訓練拡張手法を精緻に検討する。具体的には、一部のトークンに対して特定モーダルをランダムにマスクするマスクモデリング戦略を提案し、異なるモーダル間の相互作用を強制的に促進する。このマスク戦略が引き起こすネットワークの振動を軽減し、そのポジティブな効果をさらに強化するため、理論的に直交的かつ高ランクの損失関数を提案し、アテンション行列の正則化を実現する。広範な実験により、本手法が、追跡精度および成功確率の両面で、最先端のワンストリームおよびツーストリーム追跡器を大幅に向上させることを実証した。本研究の新たな視点と発見は、強力な事前学習済みViTを用いてクロスモーダルデータをモデル化する分野に新たな知見をもたらす可能性がある。コードは公開予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています