
要約
従来の二-stream追跡手法と比較して、テンプレートと検索領域間の相互作用をより早期に実現できる最近のone-stream追跡パイプラインは、顕著な性能向上を達成している。しかし、既存のone-stream追跡手法は、エンコーダー層のすべての段階において、テンプレートが検索領域内のすべての部分と相互作用する構造を採用している。これは、抽出された特徴表現が十分に識別力を持たない場合、ターゲットと背景の混同を引き起こす可能性がある。この問題を緩和するために、本研究では適応的トークン分割に基づく汎用的な関係モデリング手法を提案する。本手法は、Transformerベースの追跡におけるアテンションに基づく関係モデリングの一般化形式であり、従来の二streamおよびonestreamパイプラインの利点を引き継ぎつつ、適切な検索トークンを選択してテンプレートトークンと相互作用させることで、より柔軟な関係モデリングを可能にする。さらに、並列計算とエンドツーエンド学習を促進するために、アテンションマスキング戦略およびGumbel-Softmax技術を導入している。広範な実験の結果、本手法は二streamおよびonestreamパイプラインを上回り、6つの困難なベンチマークにおいて最先端の性能を達成するとともに、リアルタイムの実行速度を実現した。