
要約
可視光と熱画像を融合した物体追跡、いわゆるRGB-T追跡は、近年研究者たちからますます注目を集めています。両モダリティからの情報をより包括的に融合しつつ、計算コストを最小限に抑える方法は、研究者が探求し続けてきた課題です。最近では、コンピュータビジョンにおけるプロンプト学習の台頭により、大規模ビジュアルモデルから下流タスクへの知識転送がより効果的に行えるようになりました。可視光と熱モダリティ間の強い相補性を考慮し、我々は両モダリティ間での相互プロンプト学習に基づく追跡アーキテクチャを提案します。また、2次元にわたる注意機構を取り入れた軽量なプロンプターも設計しました。これにより、一方のモダリティから他方へ情報転送を行う際の計算コストを低減しながら、バックボーンの各層に組み込むことができます。広範な実験結果により、我々が提案する追跡アーキテクチャは効果的かつ効率的であることが示され、最先端の性能を達成しつつ高い実行速度を維持しています。