1ヶ月前

MoCoGAN: 動画生成のための運動と内容の分解

Sergey Tulyakov; Ming-Yu Liu; Xiaodong Yang; Jan Kautz

要約

ビデオにおける視覚信号は、コンテンツとモーションに分けることができます。コンテンツはビデオ内に存在する物体を特定し、モーションはそれらの動態を記述します。この前提に基づいて、我々はビデオ生成のためのモーションとコンテンツ分解型ジェネレーティブ・アドバーザリアル・ネットワーク（MoCoGAN）フレームワークを提案します。提案されたフレームワークは、一連のランダムベクトルをビデオフレームの系列にマッピングすることでビデオを生成します。各ランダムベクトルには、コンテンツ部分とモーション部分が含まれています。コンテンツ部分は固定されますが、モーション部分は確率過程として実現されます。無監督でモーションとコンテンツの分解を学習するために、画像識別器とビデオ識別器の両方を利用する新しい敵対的学習スキームを導入しました。複数の難易度の高いデータセットに対する広範な実験結果により、定性的および定量的な最新手法との比較を通じて、提案したフレームワークの有効性が確認されています。さらに、MoCoGANを使用することで同じコンテンツを持つ異なるモーションのビデオや異なるコンテンツを持つ同じモーションのビデオを生成できることが示されました。