3ヶ月前

高解像度動画合成には、優れた画像生成モデルが必要です

Yu Tian, Jian Ren, Menglei Chai, Kyle Olszewski, Xi Peng, Dimitris N. Metaxas, Sergey Tulyakov
高解像度動画合成には、優れた画像生成モデルが必要です
要約

画像および動画合成は、ノイズからコンテンツを生成することを目的とする密接に関連する分野である。画像ベースのモデルにおいては、高解像度に対応し、高品質なレンダリングを実現し、画像コンテンツの多様性を扱えるよう、急速な進展が見られている。一方で、動画生成においても同等の成果を達成することは依然として困難である。本研究では、最新の画像生成モデルを活用して高解像度の動画をレンダリングするフレームワークを提案する。本手法は、事前に学習され固定された画像生成モデルの潜在空間内における軌道を探索するという視点から、動画合成問題を定式化する。このアプローチは、高解像度の動画生成を可能にするだけでなく、計算効率が従来手法と比べて1桁以上向上する。さらに、コンテンツと運動を分離した表現を実現するための運動生成器を導入し、望ましい軌道を発見する。このような表現により、コンテンツや運動の操作を含む多様な応用が可能となる。また、異なるドメインに属する別々のデータセット上で画像生成器と運動生成器を学習させるという、新たなタスク「クロスドメイン動画合成」を提案する。これにより、実際に利用可能な動画データが存在しない対象の動きを生成することが可能になる。複数のデータセットを用いた広範な実験により、既存の動画生成技術と比較して本手法の優位性が示された。コードは、https://github.com/snap-research/MoCoGAN-HD にて公開される。