RGBT追跡ベンチマークのモダリティ有効性の観点からの再検討:新しいベンチマーク、問題、および解決策

RGBT追跡が多様なモーダル保証(MMW)シナリオ、特に夜間や悪天候条件下での堅牢性から注目を集めています。これらの条件下では、単一のセンシングモーダルに依存するだけでは安定した追跡結果を確保できません。しかし、既存のベンチマークは主にRGBと熱赤外線(TIR)情報の両方が十分な品質を持つ一般的なシナリオで収集されたビデオを含んでいます。これにより、厳しい画像条件における既存ベンチマークの代表性が弱まり、MMWシナリオでの追跡失敗につながります。このギャップを埋めるために、我々はモーダル有効性を考慮した新しいベンチマークMV-RGBTを提示します。これは、RGB(極端な照明条件)またはTIR(熱断層)モーダルが無効となるMMWシナリオから特別に収集されました。そのため、有効なモーダルに基づいて2つのサブセットにさらに分割され、評価の新しい構成的な視点を提供し、将来の設計に対する貴重な洞察を与えます。さらに、MV-RGBTはその種で最も多様なベンチマークであり、19の異なるシーンで撮影された36種類の異なる物体カテゴリを特徴としています。また、MMWシナリオにおける厳しい画像条件を考えると、RGBT追跡において新たな問題、「いつ融合するか」(when to fuse)が提起されます。これは、このようなシナリオでの融合戦略の開発を促進することを目指しています。この議論を容易にするため、我々はエキスパートの混合を使用した新しいソリューションMoETrack(Mixture of Experts for Tracking)を提案します。各エキスパートは独立した追跡結果と信頼度スコアを生成します。広範囲にわたる結果は、MV-RGBTがRGBT追跡の進歩に大きな潜在力を示していることを実証し、「融合は常に有益ではない」という結論を導き出しています。特にMMWシナリオではそうなります。また、MoETrackはMV-RGBTだけでなくGTOTやLasHeRなどの複数のベンチマークでも最先端の結果を達成しています。GitHub: https://github.com/Zhangyong-Tang/MVRGBT.