
要約
RGB-T追跡は、物体追跡の重要な下流タスクとして、近年著しい進歩を遂げています。しかし、依然として2つの主要な課題に阻まれています:1) 性能と効率のトレードオフ;2) 学習データの不足。後者の課題に対処するために、最近のいくつかの手法ではプロンプトを使用して事前学習されたRGB追跡モデルを微調整し、パラメータ効率的な方法で上流知識を活用しています。しかしながら、これらの手法はモダリティに依存しないパターンの探索が十分ではなく、オープンなシナリオにおける異なるモダリティの動的な信頼性を無視しています。我々はM3PTという新しいRGB-Tプロンプト追跡手法を提案します。この手法は中間融合と多モーダル・マルチステージ視覚プロンプトを活用することで、これらの課題を克服します。我々はRGB-T追跡のために調整可能な中間融合メタフレームワークの使用を先駆けて提唱しており、これによりトラッカーは性能と効率のバランスを取りながら、様々なアプリケーションの要件に対応することが可能になります。さらに、このメタフレームワークに基づいて、複数の柔軟なプロンプト戦略を利用することで、事前学習モデルを単一モーダルパターンの包括的な探索と多様なモダリティ優先シナリオにおける融合モーダル特徴量の改善モデリングに適応させます。これによりプロンプト学習がRGB-T追跡において持つ潜在力を引き出します。6つの既存の挑戦的なベンチマークでの評価結果によると、当手法は以前の最先端プロンプト微調整手法を超えるとともに、わずか0.34M(約34万)の微調整パラメータで優れた全パラメータ微調整手法にも匹敵する競争力を維持しています。