11日前

MagicVideo:潜在拡散モデルを用いた効率的な動画生成

Daquan Zhou, Weimin Wang, Hanshu Yan, Weiwei Lv, Yizhe Zhu, Jiashi Feng
MagicVideo:潜在拡散モデルを用いた効率的な動画生成
要約

我々は、潜在拡散モデルを基盤とする効率的なテキストから動画生成フレームワーク「MagicVideo」を提案する。MagicVideoは、与えられたテキスト記述と整合性のある滑らかな動画クリップを生成可能である。本手法は、新規かつ効率的な3D U-Netアーキテクチャと低次元空間における動画分布のモデリングにより、単一のGPUカード上で256×256の空間解像度の動画を合成可能であり、FLOPs(浮動小数点演算回数)の観点から従来のVideo Diffusion Models(VDM)と比較して約64倍少ない計算量で実現できる。具体的には、既存の手法がRGB空間で直接動画モデルを学習するのに対し、我々は事前学習済みのVAEを用いて動画クリップを低次元の潜在空間にマッピングし、その潜在コードの分布を拡散モデルによって学習する。さらに、画像タスクで学習されたU-Netノイズ除去器を動画データに適応させるために、2つの新規な設計を導入している。1つは、画像から動画への分布変換を実現するフレーム単位の軽量アダプタであり、もう1つはフレーム間の時系列的依存関係を捉えるための方向性時系列アテンションモジュールである。これにより、テキストから画像へのモデルで学習された畳み込み演算子の情報豊富な重みを活用し、動画学習の高速化を実現できる。また、生成動画における画素のちらつき(ピクセルディザリング)を低減するため、より高精度なRGB再構成を実現する新しいVideoVAE自動符号化器を提案する。広範な実験を通じて、MagicVideoが現実的または想像上のコンテンツを含む高品質な動画クリップを生成できることを実証した。詳細な例は、\url{https://magicvideo.github.io/#} を参照されたい。

MagicVideo:潜在拡散モデルを用いた効率的な動画生成 | 最新論文 | HyperAI超神経