
要約
現在のエンドツーエンドで学習可能なコンピュータビジョンシステムへの取り組みは、視覚追跡タスクに大きな課題をもたらしています。他のほとんどのビジョン問題とは異なり、追跡は推論段階においてオンラインで堅牢な対象固有の外観モデルを学習する必要があります。エンドツーエンドで学習可能であるためには、対象モデルのオンライン学習が追跡アーキテクチャ自体に組み込まれる必要があります。これらの課題により、一般的なシアムパラダイムは推論時に背景の外観情報を無視し、対象特徴テンプレートを単純に予測します。その結果、予測されたモデルは対象と背景の識別能力が制限されます。我々は、エンドツーエンドで完全に対象と背景の外観情報を活用して対象モデルを予測できる追跡アーキテクチャを開発しました。当社のアーキテクチャは、専門的な最適化プロセスを設計することで、僅かな反復回数で強力なモデルを予測できる差分学習損失から派生しています。さらに、我々の手法は差分損失自体の重要な側面を学習することができます。提案されたトラッカーは6つの追跡ベンチマークで新しい最先端の成果を達成し、VOT2018ではEAOスコア0.440を記録しながら40 FPS以上で動作します。コードとモデルはhttps://github.com/visionml/pytracking で利用可能です。