il y a 8 jours

Génération de vidéos photoréalistes avec des modèles de diffusion

Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, José Lezama

Résumé

Nous présentons W.A.L.T., une approche fondée sur les transformateurs pour la génération de vidéos photoréalistes via la modélisation par diffusion. Notre méthode repose sur deux décisions architecturales clés. Premièrement, nous utilisons un encodeur causal pour compresser conjointement images et vidéos dans un espace latente unifié, permettant ainsi l'entraînement et la génération multimodaux. Deuxièmement, afin d’optimiser la mémoire et l’efficacité d’entraînement, nous adoptons une architecture d’attention par fenêtres adaptée à la modélisation générative conjointe spatiale et spatiotemporelle. Grâce à ces choix architecturaux, nous parvenons à atteindre des performances de pointe sur des benchmarks établis de génération vidéo (UCF-101 et Kinetics-600) et d’image (ImageNet), sans recourir à la guidance sans classificateur. Enfin, nous entraînons également une chaîne de trois modèles pour la tâche de génération vidéo à partir de texte : un modèle de diffusion vidéo latent de base, suivi de deux modèles de super-résolution vidéo par diffusion, permettant de générer des vidéos de résolution $512 \times 896$ à 8 images par seconde.