
要約
時空間行動局所化(spatiotemporal action localization)には、設計されたアーキテクチャに以下の2つの情報源を統合する必要がある:(1) 過去のフレームから得られる時間的情報、および (2) キーフレームから得られる空間的情報。現在の最先端手法では、これらの情報を別々のネットワークで抽出し、検出結果を得るために追加の融合機構を用いることが一般的である。本研究では、動画ストリームにおけるリアルタイムな時空間行動局所化を実現する統合型CNNアーキテクチャ「YOWO」を提案する。YOWOは、一段階型のアーキテクチャであり、時間的および空間的情報を同時に抽出し、一つの評価プロセスでバウンディングボックスと行動確率を直接予測する2本のブランチを備えている。全体として統合されたアーキテクチャであるため、エンドツーエンドでの最適化が可能である。YOWOは高速性を実現しており、16フレーム入力クリップでは34フレーム/秒、8フレーム入力クリップでは62フレーム/秒の処理速度を達成しており、現在の時空間行動局所化タスクにおける最も高速な最先端アーキテクチャである。特に、J-HMDB-21およびUCF101-24データセットにおいて、それぞれ約3%および約12%という顕著な性能向上を達成し、従来の最先端手法を上回っている。さらに、AVAデータセットにおいても、競争力のある結果を提供する最初で唯一の一段階型アーキテクチャである。本研究では、コードおよび事前学習済みモデルを公開している。