18日前

短期アンカー連携と長期自己誘導注意を用いた動画オブジェクト検出

{Manuel Mucientes, Víctor M Brea, Daniel Cores}
要約

本稿では、動画に含まれる空間時間的情報を活用して物体検出の精度を向上させる新しいネットワークアーキテクチャを提案する。まず、近接するフレームから同一のアンカー箱(anchor box)から得られた候補領域(proposal)を連結し、ボックス特徴量を関連付け・集約する。次に、短期間の強化されたボックス特徴量を統合することで、長期的な空間時間的情報を活用する新しいアテンションモジュールを設計した。本モジュールは、動画物体検出分野において、初めて長期的な幾何学的特徴を活用する手法を実現した。最後に、参照フレームからの空間情報と、短期的および長期的時間的文脈を考慮した集約情報の両方を入力とする、空間時間的ダブルヘッド構造を採用している。本手法は、特性が極めて異なる5つの動画物体検出データセットにおいて評価され、広範なシナリオにおける堅牢性を検証した。非パラメトリック統計検定の結果、最先端手法を上回る性能を示した。実装コードは、https://github.com/daniel-cores/SLTnet にて公開している。