8日前

拡散モデルを用いた写実的な動画生成

Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, José Lezama

要約

本稿では、拡散モデルを用いた写実的な動画生成を実現するTransformerベースの手法W.A.L.T.を提案する。本手法は2つの重要な設計方針に基づいている。第一に、因果的エンコーダ（causal encoder）を用いて、画像と動画を統一された潜在空間内で共同圧縮することで、複数モダリティ間での学習および生成を可能にしている。第二に、メモリおよび学習効率を向上させるために、空間的および時空間的生成モデリングを統合的に扱うことを目的としたウィンドウアテンションアーキテクチャを採用している。これらの設計方針を統合することで、分類器フリー・ガイド付き（classifier-free guidance）を用いずに、既存の動画生成ベンチマーク（UCF-101およびKinetics-600）および画像生成ベンチマーク（ImageNet）において、最先端の性能を達成することが可能となった。さらに、テキストから動画を生成するタスクを実現するため、3段階の級連構造を採用したモデル群を訓練した。この構成は、ベースとなる潜在動画拡散モデルと、2つの動画スーパーレゾリューション拡散モデルから構成されており、8フレーム/秒の速度で512×896解像度の動画を生成することが可能である。