8日前

Lumiere：動画生成のための空間時系列拡散モデル

Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Guanghui Liu, Amit Raj, Yuanzhen Li, Michael Rubinstein, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri

論文の詳細を見る

要約

我々は、現実的で多様かつ一貫性のある運動を表現する動画を合成することを目的としたテキストから動画への拡散モデル「Lumiere」を紹介する。これは、動画合成分野における重要な課題である。この課題に対処するため、本研究では、一度のモデル通し（single pass）で動画の全時間領域を一括生成する「空間時間U-Net」アーキテクチャを提案する。これは、従来の動画生成モデルが遠隔のキーフレームを順次合成し、その後で時間的スーパーレゾリューションを適用する方式と対照的である。この従来手法は、グローバルな時間的一貫性を達成することが本質的に困難である。一方、本モデルでは空間的および（特に重要である）時間的ダウンサンプリングとアップサンプリングを併用し、事前に学習されたテキストから画像への拡散モデルを活用することで、複数の空間時間スケールで処理することにより、フルフレームレートかつ低解像度の動画を直接生成する能力を学習する。実験では最先端のテキストから動画生成性能を達成し、画像から動画生成、動画の穴埋め（inpainting）、スタイル化生成など、多様なコンテンツ制作タスクおよび動画編集アプリケーションにおいて、本設計が容易に応用可能であることを示した。