
要約
オンライン多目的追跡は、時間制約のあるビデオ解析アプリケーションにおける基本的な問題です。一般的な検出ベースの追跡フレームワークにおける主要な課題は、信頼性の低い検出結果を既存のトラックとどのように関連付けるかという点にあります。本論文では、検出と追跡の両方の出力から候補を集める方法を提案し、信頼性の低い検出を処理します。冗長な候補を生成する背後の直感は、検出とトラックが異なるシナリオで互いに補完しあうことです。高信頼度の検出結果は長期的に追跡のずれを防ぎ、トラックの予測は遮蔽によって引き起こされるノイジーな検出を処理できます。リアルタイムで多数の候補から最適な選択を行うために、全画像上で大部分の計算を共有する完全畳み込みニューラルネットワークに基づく新しいスコアリング関数を提示します。さらに、大規模な人物再識別データセットで学習された深層学習による外観表現を使用して、当社の追跡器の識別能力を向上させます。広範囲にわたる実験により、当社の追跡器が広く使用されている人物追跡ベンチマークにおいてリアルタイムかつ最先端の性能を達成していることが示されています。