HyperAIHyperAI

Command Palette

Search for a command to run...

Génération de vidéos photoréalistes avec des modèles de diffusion

Agrim Gupta Lijun Yu Kihyuk Sohn Xiuye Gu Meera Hahn Li Fei-Fei Irfan Essa Lu Jiang José Lezama

Résumé

Nous présentons W.A.L.T., une approche fondée sur les transformateurs pour la génération de vidéos photoréalistes via la modélisation par diffusion. Notre méthode repose sur deux décisions architecturales clés. Premièrement, nous utilisons un encodeur causal pour compresser conjointement images et vidéos dans un espace latente unifié, permettant ainsi l'entraînement et la génération multimodaux. Deuxièmement, afin d’optimiser la mémoire et l’efficacité d’entraînement, nous adoptons une architecture d’attention par fenêtres adaptée à la modélisation générative conjointe spatiale et spatiotemporelle. Grâce à ces choix architecturaux, nous parvenons à atteindre des performances de pointe sur des benchmarks établis de génération vidéo (UCF-101 et Kinetics-600) et d’image (ImageNet), sans recourir à la guidance sans classificateur. Enfin, nous entraînons également une chaîne de trois modèles pour la tâche de génération vidéo à partir de texte : un modèle de diffusion vidéo latent de base, suivi de deux modèles de super-résolution vidéo par diffusion, permettant de générer des vidéos de résolution 512×896512 \times 896512×896 à 8 images par seconde.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Génération de vidéos photoréalistes avec des modèles de diffusion | Articles | HyperAI