Command Palette
Search for a command to run...
Génération de vidéos photoréalistes avec des modèles de diffusion
Génération de vidéos photoréalistes avec des modèles de diffusion
Agrim Gupta Lijun Yu Kihyuk Sohn Xiuye Gu Meera Hahn Li Fei-Fei Irfan Essa Lu Jiang José Lezama
Résumé
Nous présentons W.A.L.T., une approche fondée sur les transformateurs pour la génération de vidéos photoréalistes via la modélisation par diffusion. Notre méthode repose sur deux décisions architecturales clés. Premièrement, nous utilisons un encodeur causal pour compresser conjointement images et vidéos dans un espace latente unifié, permettant ainsi l'entraînement et la génération multimodaux. Deuxièmement, afin d’optimiser la mémoire et l’efficacité d’entraînement, nous adoptons une architecture d’attention par fenêtres adaptée à la modélisation générative conjointe spatiale et spatiotemporelle. Grâce à ces choix architecturaux, nous parvenons à atteindre des performances de pointe sur des benchmarks établis de génération vidéo (UCF-101 et Kinetics-600) et d’image (ImageNet), sans recourir à la guidance sans classificateur. Enfin, nous entraînons également une chaîne de trois modèles pour la tâche de génération vidéo à partir de texte : un modèle de diffusion vidéo latent de base, suivi de deux modèles de super-résolution vidéo par diffusion, permettant de générer des vidéos de résolution 512×896 à 8 images par seconde.