HyperAIHyperAI
il y a 7 jours

Imagen Video : Génération de vidéos en haute définition à l’aide de modèles de diffusion

Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P. Kingma, Ben Poole, Mohammad Norouzi, David J. Fleet, Tim Salimans
Imagen Video : Génération de vidéos en haute définition à l’aide de modèles de diffusion
Résumé

Nous présentons Imagen Video, un système de génération vidéo conditionnée par le texte, basé sur une cascade de modèles de diffusion vidéo. À partir d’un prompt textuel, Imagen Video génère des vidéos en haute définition en utilisant un modèle de génération vidéo de base ainsi qu’une suite de modèles de super-résolution spatiale et temporelle alternés. Nous décrivons comment nous avons échelonné ce système pour en faire un modèle de génération vidéo haute définition à partir d’un texte, en expliquant des choix architecturaux tels que le recours à des modèles de super-résolution spatiale et temporelle entièrement convolutifs à certaines résolutions, ainsi que le choix de la paramétrisation v pour les modèles de diffusion. Par ailleurs, nous confirmons et transférons des résultats obtenus dans des travaux antérieurs sur la génération d’images par diffusion au cadre de la génération vidéo. Enfin, nous appliquons une distillation progressive à nos modèles vidéo, en combinant une guidance sans classificateur pour permettre un échantillonnage rapide et de haute qualité. Nous constatons qu’Imagen Video est non seulement capable de produire des vidéos de haute fidélité, mais également très contrôlable et dotée d’une connaissance approfondie du monde, notamment la capacité à générer des vidéos diversifiées, des animations textuelles dans divers styles artistiques, ainsi qu’une compréhension des objets en 3D. Pour consulter des exemples, rendez-vous sur https://imagen.research.google/video/.

Imagen Video : Génération de vidéos en haute définition à l’aide de modèles de diffusion | Articles de recherche récents | HyperAI