1ヶ月前

動作と内容を分解して自然なビデオシーケンス予測を行う

Ruben Villegas; Jimei Yang; Seunghoon Hong; Xunyu Lin; Honglak Lee
動作と内容を分解して自然なビデオシーケンス予測を行う
要約

自然なビデオシーケンスの将来フレームを予測するための深層ニューラルネットワークを提案します。ビデオ内のピクセルの複雑な進化を効果的に処理するために、運動とコンテンツ、ビデオに動態を生成する2つの主要な要素を分解することを提案します。当モデルは、ピクセルレベルの予測に用いられるエンコーダー-デコーダー畳み込みニューラルネットワーク(CNN)と畳み込みLSTMに基づいて構築されており、画像の空間的な配置とそれに伴う時間的な動態を独立して捉えます。運動とコンテンツを独立してモデリングすることで、次のフレームの予測は抽出されたコンテンツ特徴量を識別された運動特徴量によって次のフレームのコンテンツに変換することに簡略化され、予測タスクが単純化されます。当モデルは複数の時間ステップで端から端まで学習可能であり、分離した訓練なしで自然に運動とコンテンツの分解を学習します。KTH、Weizmannアクション、およびUCF-101データセットを使用して人間活動ビデオにおいて提案したネットワークアーキテクチャを評価しました。最近の手法との比較で最先端の性能を示しています。我々が知る限りでは、これは自然なビデオにおけるピクセルレベルでの将来予測のために運動とコンテンツの分離を行う最初の端から端まで学習可能なネットワークアーキテクチャです。