Transformerを用いたRGB-T追跡におけるチャネルおよび空間特徴の融合

RGB-T追跡におけるクロスモーダル特徴のより良い融合方法は核心的な課題です。これまでの手法は、RGBとTIR(熱赤外線)特徴を十分に融合できていないか、両モーダリティの情報を含む中間層に依存してクロスモーダル情報の相互作用を達成しています。前者は、テンプレートまたは探索領域のRGBとTIR情報のみを使用したチャネルおよび空間特徴の融合において、その潜在能力を十分に活用できていません。後者は、テンプレートと探索領域との直接的な相互作用が欠けており、モデルが両モーダリティの元々の意味論的情報を完全に活用する能力を制限しています。これらの制約を緩和するために、クロスモーダルチャネルと空間特徴の直接的な融合により視覚Transformerの性能向上を目指し、CSTNetを提案します。CSTNetはViT(Vision Transformer)をバックボーンとして使用し、クロスモーダルチャネル特徴融合モジュール(CFM)とクロスモーダル空間特徴融合モジュール(SFM)を挿入することで、RGBとTIR特徴間での直接的な相互作用を実現します。CFMはRGBとTIR特徴に対して並列的に共同チャネル強化と多段階共同空間特徴モデリングを行い、それらの特徴を合算し、その後全体的に合算された特徴と元の特徴を統合します。SFMはクロスアテンションを使用してクロスモーダル特徴の空間関係をモデリングし、次に畳み込みフィードフォワードネットワークで多様なモーダリティからの共同空間およびチャネル統合を行います。私たちはCSNetを使用して事前学習重みを持つモデルからCFMとSFMを取り除いた状態でモデルを再学習し、パラメータ数が36%削減され、Flops(浮動小数点演算回数)が24%削減され、1-2%の性能低下とともに50%高速化されるCSTNet-smallを提案しました。包括的な実験結果は、CSTNetが3つの公開RGB-T追跡ベンチマークで最先端の性能を達成していることを示しています。コードはhttps://github.com/LiYunfengLYF/CSTNet で利用可能です。