
要約
本研究では、外観と運動の両方の情報を統合して新しいRGB-T追跡フレームワークを提案します。まず、堅牢な外観モデルを得るため、新しい遅延融合手法を開発し、RGBと熱赤外線(T)モダリティの融合重みマップを推定します。この融合重みは、オフラインで学習されたグローバルおよびローカルマルチモーダル融合ネットワークを使用して決定され、その後、RGBとTモダリティの応答マップを線形結合するために採用されます。次に、外観情報が信頼できない場合、目標物とカメラの運動などの運動情報を包括的に考慮することで追跡器の堅牢性を確保します。さらに、外観追跡器と運動追跡器を柔軟に切り替えるための追跡器スイッチャーを提案します。3つの最近のRGB-T追跡データセットにおける多数の実験結果から、提案した追跡器が他の最先端アルゴリズムよりも著しく優れていることが示されています。