
要約
近年、視覚追跡の堅牢性において驚異的な改善が見られましたが、追跡精度の向上は限定的でした。強力な分類器の開発に焦点が当てられている一方で、目標状態の正確な推定という問題はほとんど見過ごされてきました。実際、多くの追跡システムは目標バウンディングボックスを推定するために単純な多スケール検索に頼っています。私たちは、このアプローチが根本的に制限されていると主張します。なぜなら、目標推定は複雑なタスクであり、オブジェクトに関する高次元の知識を必要とするからです。この問題に対処するため、私たちは専門的な目標推定と分類コンポーネントから構成される新しい追跡アーキテクチャを提案します。目標推定には広範なオフライン学習を通じて高次元の知識を取り入れます。私たちの目標推定コンポーネントは、目標オブジェクトと推定されたバウンディングボックスとの重なりを予測するように訓練されます。目標固有の情報を慎重に統合することで、当アプローチはこれまでにないレベルのバウンディングボックス精度を達成しています。さらに、オンラインで訓練された分類コンポーネントを導入し、他の物体(distractors)が存在する場合でも高い識別力を保証します。最終的な追跡フレームワークは5つの困難なベンチマークで新たな最先端技術となりました。大規模な新しいTrackingNetデータセットでは、私たちの追跡システムATOMが従来の最良手法に対して15%の相対的な性能向上を達成し、30 FPS以上の速度で動作します。コードとモデルはhttps://github.com/visionml/pytracking で公開されています。