HyperAIHyperAI

Command Palette

Search for a command to run...

拡散モデルを用いた写実的な動画生成

Agrim Gupta Lijun Yu Kihyuk Sohn Xiuye Gu Meera Hahn Li Fei-Fei Irfan Essa Lu Jiang José Lezama

概要

本稿では、拡散モデルを用いた写実的な動画生成を実現するTransformerベースの手法W.A.L.T.を提案する。本手法は2つの重要な設計方針に基づいている。第一に、因果的エンコーダ(causal encoder)を用いて、画像と動画を統一された潜在空間内で共同圧縮することで、複数モダリティ間での学習および生成を可能にしている。第二に、メモリおよび学習効率を向上させるために、空間的および時空間的生成モデリングを統合的に扱うことを目的としたウィンドウアテンションアーキテクチャを採用している。これらの設計方針を統合することで、分類器フリー・ガイド付き(classifier-free guidance)を用いずに、既存の動画生成ベンチマーク(UCF-101およびKinetics-600)および画像生成ベンチマーク(ImageNet)において、最先端の性能を達成することが可能となった。さらに、テキストから動画を生成するタスクを実現するため、3段階の級連構造を採用したモデル群を訓練した。この構成は、ベースとなる潜在動画拡散モデルと、2つの動画スーパーレゾリューション拡散モデルから構成されており、8フレーム/秒の速度で512×896解像度の動画を生成することが可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています