7日前

Imagen Video:拡散モデルを用いた高解像度動画生成

Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P. Kingma, Ben Poole, Mohammad Norouzi, David J. Fleet, Tim Salimans
Imagen Video:拡散モデルを用いた高解像度動画生成
要約

本稿では、動画拡散モデルの段階的構造に基づくテキスト条件付き動画生成システム「Imagen Video」を紹介する。テキストプロンプトを入力すると、ベースとなる動画生成モデルと、空間的および時間的スーパーリゾリューションモデルを交互に適用する一連のモデルを用いて、高精細な動画を生成する。本研究では、高精細なテキストから動画への変換モデルとしてこのシステムを拡張する際の設計上の選択肢について詳述する。具体的には、特定の解像度において完全畳み込み型の時間的および空間的スーパーリゾリューションモデルを採用した理由、および拡散モデルにおけるv-parameterizationの選定について述べる。さらに、拡散モデルに基づく画像生成に関する従来の研究成果を、動画生成の文脈に確認・適用した。最後に、分類器フリー・ガイド付きのプログレッシブ・ディスティルレーションを用いて、高速かつ高品質なサンプリングを実現した。実験の結果、Imagen Videoは高忠実度の動画生成が可能であるだけでなく、高い制御性と世界知識を備えており、多様な芸術的スタイルにおける動画やテキストアニメーションの生成、3Dオブジェクトの理解能力を有していることが明らかになった。サンプルは以下のURLにて確認可能である:https://imagen.research.google/video/

Imagen Video:拡散モデルを用いた高解像度動画生成 | 最新論文 | HyperAI超神経