17日前

MotionSqueeze:ビデオ理解のためのニューラルモーション特徴学習

Heeseung Kwon, Manjin Kim, Suha Kwak, Minsu Cho
MotionSqueeze:ビデオ理解のためのニューラルモーション特徴学習
要約

動きは動画の理解において重要な役割を果たしており、現在の最先端の動画分類用ニューラルモデルの多くは、別途の市販手法によって抽出された光流(optical flow)を用いて動き情報を組み込んでいる。しかし、フレーム単位の光流の計算は非常に計算量が多いため、動き情報の統合は動画理解における主要な計算上のボトルネックのままである。本研究では、外部から取得する高負荷な光流計算を、ネットワーク内部で軽量に学習可能な動き特徴の抽出に置き換える手法を提案する。我々は、任意のニューラルネットワークの中間に挿入可能な学習可能なニューラルモジュール「MotionSqueeze」を設計し、フレーム間の対応関係を学習してそれらを動き特徴に変換する。得られた動き特徴は、次の下流層に直接入力され、より正確な予測を実現する。実験により、本手法は4つの標準的な動作認識ベンチマークにおいて顕著な性能向上を示し、追加コストは極めて小さい。特にSomething-Something-V1およびV2データセットにおいて、既存の最先端手法を上回る結果を達成した。

MotionSqueeze:ビデオ理解のためのニューラルモーション特徴学習 | 最新論文 | HyperAI超神経