11日前

ラテンツを整える:ラテンス拡散モデルを用いた高解像度動画合成

Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, Karsten Kreis
ラテンツを整える:ラテンス拡散モデルを用いた高解像度動画合成
要約

潜在拡散モデル(Latent Diffusion Models, LDMs)は、低次元の潜在空間で拡散モデルを学習することにより、高品質な画像生成を実現しつつ、過度な計算リソースを要しない点が特徴です。本研究では、特に計算リソースを多く要する高解像度動画生成タスクに、このLDMのアプローチを適用します。まず、画像データのみを用いてLDMを事前学習した後、潜在空間の拡散モデルに時間次元を導入し、エンコードされた画像シーケンス(すなわち動画)上で微調整を行うことで、画像生成モデルを動画生成モデルへと変換します。同様に、拡散モデルのアップサンプリング層に対しても時間的に整合性を確保する機構を導入し、時間的に一貫した動画超解像モデルへと変換しています。本研究では、実世界における応用として、野外走行データのシミュレーションおよびテキストから動画を生成するクリエイティブコンテンツ生成の2つの課題に焦点を当てます。特に、解像度512×1024の実際のドライブ動画データに対して、Video LDMを検証し、最先端の性能を達成しました。さらに、本手法は既存の事前学習済み画像LDMをそのまま利用できることも示しました。この場合、時間的整合性モデルのみを学習すればよく、非常に効率的なアプローチが可能になります。これにより、公開されている最先端のテキストから画像生成LDM「Stable Diffusion」を、解像度最大1280×2048まで対応可能な効率的かつ表現力豊かなテキストから動画生成モデルへと変換しました。また、このように学習された時間層が、さまざまな微調整されたテキストから画像LDMに一般化されることを示しました。この性質を活用することで、個人向けのカスタマイズ可能なテキストから動画生成の初の実現例を示し、今後のコンテンツ生成の新たな展開を示唆しています。プロジェクトページ:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

ラテンツを整える:ラテンス拡散モデルを用いた高解像度動画合成 | 最新論文 | HyperAI超神経