
要約
コンピュータビジョンの急速な発展により、単一モーダル(RGB)オブジェクト追跡は近年大きな進歩を遂げています。しかし、単一のイメージセンサには限界があるため、複数モーダル画像(RGB、赤外線など)が導入され、複雑な環境下での全天候型オブジェクト追跡の不足を補うことが目指されています。しかし、十分な多モーダル追跡データを取得することが難しく、開放環境において主導的なモーダルが変化するため、既存の大多数の技術は多モーダル相補情報を動的に抽出できず、満足のいく追跡性能を得ることができません。この問題に対処するために、我々は普遍的な双方向アダプタに基づく新しい多モーダル視覚プロンプト追跡モデルを提案します。このモデルでは、複数のモーダル間で相互にクロスプロンプティングを行うことで、各モーダル固有の情報を取り扱います。モデルは普遍的な双方向アダプタとパラメータ共有型の複数のモーダル固有トランスフォーマーエンコーダブランチから構成されています。エンコーダはフローズンされた事前学習済み基盤モデルを使用して各モーダルの特徴を個別に抽出します。我々は単純ながら効果的な軽量フィーチャーアダプタを開発し、一つのモーダルから別のモーダルへとモーダル固有情報を転送し、適応的に視覚フィーチャープロンプト融合を行います。わずか0.32Mの学習可能なパラメータを追加することで、当モデルはフルファインチューニング手法やプロンプト学習ベース的手法と比較して優れた追跡性能を達成しています。コードは以下のURLで公開されています: https://github.com/SparkTempest/BAT.