6ヶ月前

概要

現在の最先端のトラッキング手法は、各フレームにおける物体の位置推定に、主にターゲットの外観モデルに依存している。しかし、このようなアプローチは、たとえば外観の急激な変化や雑音物体（ドロイドオブジェクト）の存在といった状況下では、ターゲット外観モデルだけでは追跡の信頼性が低下し、失敗しやすい。周囲シーン内に他の物体が存在し、その位置が把握されているというシーン情報を活用できれば、こうした状況下において極めて有益となる。このようなシーン情報をフレーム間で伝搬させることで、例えば雑音物体を明示的に回避したり、ターゲット候補領域を排除するといった処理が可能になる。本研究では、シーン情報を活用して追跡を行う新たなトラッキングアーキテクチャを提案する。本手法では、シーン情報を密集した局所状態ベクトルとして表現し、たとえば局所領域がターゲット、背景、または雑音物体であるかを符号化する。これらの状態ベクトルは時間的に伝搬され、外観モデルの出力と統合されてターゲットの位置を推定する。本ネットワークは、動画セグメント上で追跡性能を直接最大化するように学習されることにより、シーン情報を効果的に活用する能力を獲得する。提案手法は、3つの追跡ベンチマークにおいて新たな最先端性能を達成し、最新のGOT-10kデータセットではAOスコア63.6％を記録した。

ソースPDF