RGBT追跡におけるモダリティギャップの打破:結合された知識蒸留

RGB画像と熱赤外線(TIR)画像間のモダリティギャップは、既存のRGBT追跡手法において重要な問題であるが、しばしば見落とされています。このモダリティギャップは主に画像スタイルの違いに存在することが観察されます。本研究では、異なるモダリティの共通スタイルを追求し、モダリティギャップを打破するために、新しい結合知識蒸留フレームワークであるCKD(Coupled Knowledge Distillation)を提案します。特に、2つの学生ネットワークを導入し、スタイル蒸留損失を使用してこれらのスタイル特徴量をできるだけ一貫させる方法を採用しています。2つの学生ネットワーク間のスタイル差異を軽減することで、異なるモダリティ間のモダリティギャップを効果的に打破できます。しかし、スタイル特徴量の蒸留は、学生ネットワークにおける2つのモダリティのコンテンツ表現に悪影響を与える可能性があります。この問題に対処するため、元のRGBおよびTIRネットワークを教師として使用し、スタイル-コンテンツ直交特徴量分離スキームにより、それぞれ2つの学生ネットワークにコンテンツ知識を蒸留します。上記2つの蒸留プロセスをオンライン最適化フレームワークで結合することで、モダリティギャップなしで新しいRGBおよび熱赤外線モダリティの特徴表現を作り出すことができます。さらに、追跡ロバスト性と効率性をそれぞれ向上させるために、マスク付きモデリング戦略と多様な候補トークン除去戦略をCKDに設計しました。5つの標準的なRGBT追跡データセットでの広範な実験により、提案手法が最先端手法に対して有効性を持つことが確認されるとともに、最速の追跡速度96.4 FPSを達成しています。コードは https://github.com/Multi-Modality-Tracking/CKD で利用可能です。