
要約
多モーダル追跡は、従来のRGBベースの追跡と比較して複雑なシナリオでより正確かつ堅牢であるため注目を集めています。その鍵は、多モーダルデータを融合し、モーダル間のギャップを縮小する方法にあります。しかし、多モーダル追跡は依然としてデータ不足により深刻な影響を受け、これにより融合モジュールの学習が不十分となっています。本論文では、このような融合モジュールを構築する代わりに、多モーダル視覚プロンプトへの重要性に焦点を当てることで、多モーダル追跡に関する新しい視点を提供します。私たちは新たな多モーダルプロンプト追跡器(ProTrack)を設計しました。このProTrackは、プロンプトパラダイムによって多モーダル入力を単一のモーダルに変換することができます。大規模な事前学習RGB追跡器の追跡能力を最大限に活用することで、ProTrackは多モーダルデータに対する追加学習なしに入力のみを変更することで高性能な多モーダル追跡を達成できます。5つのベンチマークデータセットでの広範な実験により、提案されたProTrackの有効性が示されています。