RGBT追跡のための階層的ダイバージェンス損失を用いたマルチアダプターネットワーク

RGBと熱赤外線データの強力な相補性が、トラッカーを24時間・全天候型に機能させることを可能にするため、RGBT追跡は近年ますます注目を集めています。しかし、視覚追跡のためにRGBTデータを効果的に表現する方法についてはまだ十分に研究されていません。既存の研究では、通常、モダリティ共有情報やモダリティ固有情報の抽出に焦点を当てていますが、これらの2つの手がかりの可能性がRGBT追跡において十分に探求されたり活用されたりしていません。本論文では、RGBT追跡におけるモダリティ共有、モダリティ固有およびインスタンス認識的な目標表現学習を共同で行う新しいマルチアダプター・ネットワークを提案します。そのため、エンドツーエンドの深層学習フレームワーク内に3種類のアダプターを設計しました。具体的には、修正されたVGG-Mを使用して一般アダプターとしてモダリティ共有目標表現を抽出します。また、計算量を削減しながらモダリティ固有特徴を抽出するために、各層と各モダリティに対して並列的に小さなブロックを一般アダプターに追加するモダリティアダプターを設計しました。この設計により、大部分のパラメータが一般アダプターと共有されるため、比較的少ないパラメータ数で多段階のモダリティ固有表現を学習することが可能です。さらに、特定の目標の外観特性と時間変動を捉えるためにインスタンスアダプターも設計しました。また、共有特徴と固有特徴を強化するために、異なるモーダル特徴間の分布乖離を測定する複数カーネル最大平均二乗誤差(Multiple Kernel Maximum Mean Discrepancy, MKMMD)損失を使用し、各層に統合することでより堅牢な表現学習を行います。2つのRGBT追跡ベンチマークデータセットでの広範な実験により、提案したトラッカーが最先端手法に対して優れた性能を持つことが示されました。