
要約
画像分類タスクで学習される意味特徴と、類似度マッチングタスクで学習される外観特徴が互いに補完し合うことを観察し、リアルタイムオブジェクト追跡のための二重のシアムネットワークを構築しました。このネットワークはSA-Siamと命名され、意味ブランチと外観ブランチから構成されています。各ブランチは類似度学習のシアムネットワークです。SA-Siamにおける重要な設計選択肢は、2つのタイプの特徴量の異質性を保つために、2つのブランチを別々に訓練することです。さらに、意味ブランチに対してチャネル注意メカニズムを提案しています。チャネルごとの重みは、目標位置周辺のチャネル活性化に基づいて計算されます。SiamFC \cite{SiamFC} から継承されたアーキテクチャにより、当社のトラッカーはリアルタイムを超えて動作しますが、二重設計と注意メカニズムにより追跡性能が大幅に向上しています。提案されたSA-SiamはOTB-2013/50/100ベンチマークにおいて他のすべてのリアルタイムトラッカーを大きく上回る性能を示しています。