
要約
視覚追跡は、動画の各フレームにおける対象の状態を回帰するという根本的な問題である。近年、顕著な進展が達成されてきたものの、追跡器は依然として誤動作や不正確さに悩まされている。したがって、対象の推定における不確実性を適切に表現することは極めて重要である。現在の主流なアプローチは、状態依存の信頼度スコアを推定するものであるが、このスコアには明確な確率的解釈がなく、実用性に制約が生じる。本研究では、確率的回帰の定式化を提案し、追跡に適用する。本ネットワークは、入力画像を条件として対象状態の条件付き確率密度を予測する。重要な点は、この定式化が、不正確なアノテーションに起因するラベルノイズや、タスク自体の曖昧さを適切にモデル化できることである。回帰ネットワークは、カルバック・ライブラー情報量(Kullback-Leibler divergence)の最小化によって学習される。追跡に適用した場合、本定式化は出力の確率的表現を可能にするだけでなく、性能の大幅な向上も実現する。本追跡器は、6つのデータセットにおいて新たなSOTA(最先端)を達成し、LaSOTでは59.8%のAUC、TrackingNetでは75.8%のSuccessを達成した。コードおよびモデルは、https://github.com/visionml/pytracking にて公開されている。