
要約
大量のラベルの付いていないビデオを活用し、ビデオ認識タスク(例:動作分類)とビデオ生成タスク(例:未来予測)のためのシーン動態モデルを学習します。本研究では、シーンの前景と背景を分離する空間時間畳み込みアーキテクチャを持つ生成対抗ネットワークを提案します。実験結果は、このモデルが単純な基準よりも高フレームレートで最大1秒までの小さなビデオをよりよく生成できることを示しており、静止画から合理的な未来を予測する際の有用性も確認しています。さらに、実験と可視化により、このモデルが最小限の監督下で動作認識に役立つ特徴量を内部的に学習していることが明らかになり、シーン動態が表現学習にとって有望な信号であることを示唆しています。我々は、生成ビデオモデルがビデオ理解やシミュレーションなどの多くのアプリケーションに影響を与えると考えています。