MFGNet: RGB-T追跡のための動的なモダリティ対応フィルタ生成

多くのRGB-T追跡器は、適応的な重み付けスキーム(または注意メカニズム)を用いて堅牢な特徴表現を達成しようと試みています。これらの研究とは異なり、我々は実際の追跡において様々な入力画像に対して畳み込みカーネルを適応的に調整することで、可視光と熱赤外線データ間のメッセージ伝達を強化する新しい動的モダリティ認識フィルタ生成モジュール(MFGNetと命名)を提案します。画像ペアが入力として与えられた場合、まずバックボーンネットワークでそれらの特徴をエンコードします。次に、これらの特徴マップを連結し、2つの独立したネットワークを使用して動的モダリティ認識フィルタを生成します。可視光フィルタと熱赤外線フィルタはそれぞれ対応する入力特徴マップに対して動的な畳み込み演算を行います。残差接続から着想を得て、生成された可視光および熱赤外線の特徴マップは入力特徴マップとともに要約されます。拡張された特徴マップはRoIアラインメントモジュールに入力され、その後の分類のためにインスタンスレベルの特徴を生成します。重度の遮蔽、高速移動、画角外といった問題に対処するために、新しい方向認識目標駆動注意メカニズムを利用した局所と全局の合同探索を行うことを提案します。空間的および時間的再帰型ニューラルネットワークは、正確な全局注意予測のために方向認識コンテキストを捉えるために使用されます。3つの大規模RGB-T追跡ベンチマークデータセットにおける広範な実験により、我々が提案したアルゴリズムの有効性が検証されました。本論文のソースコードは\textcolor{magenta}{\url{https://github.com/wangxiao5791509/MFG_RGBT_Tracking_PyTorch}}で入手可能です。