
要約
深層畳み込みニューラルネットワークは、画像認識タスクにおいて大きな成功を収めています。しかし、最先端の画像認識ネットワークをビデオに転用することは容易ではありません。フレームごとの評価は非常に遅く、実用的でないからです。本稿では、高速かつ正確なビデオ認識フレームワークである「深層特徴フロー」を提案します。この手法では、計算コストが高い畳み込みサブネットワークを疎なキーフレームのみで実行し、その深層特徴マップをフローフィールドを通じて他のフレームに伝播させます。フローコンピュテーションが比較的速いことにより、大幅な速度向上が達成されます。全体アーキテクチャのエンドツーエンドでの学習は、認識精度を大幅に向上させます。「深層特徴フロー」は柔軟性と汎用性が高く、最近の2つの大規模ビデオデータセットで検証されています。本手法は、実用的なビデオ認識に向けて大きな一歩を踏み出しています。