HyperAIHyperAI
il y a 8 jours

Modèles de diffusion sur grille pour la génération vidéo à partir de texte

Taegyeong Lee, Soyeong Kwon, Taehwan Kim
Modèles de diffusion sur grille pour la génération vidéo à partir de texte
Résumé

Les avancées récentes des modèles de diffusion ont considérablement amélioré la génération d’images à partir de texte. Toutefois, la génération de vidéos à partir de texte constitue une tâche plus complexe que la génération d’images, en raison de la taille bien plus importante des jeux de données nécessaires ainsi que des coûts computationnels élevés associés. La plupart des méthodes existantes de génération vidéo reposent soit sur une architecture 3D U-Net prenant en compte la dimension temporelle, soit sur une génération autoregressive. Ces approches nécessitent des jeux de données volumineux et présentent des contraintes computationnelles plus importantes que celles observées dans la génération d’images à partir de texte. Pour relever ces défis, nous proposons une nouvelle méthode simple mais efficace, basée sur une diffusion en grille pour la génération vidéo à partir de texte, sans dimension temporelle dans l’architecture, ainsi qu’un nouveau jeu de données étiqueté texte-vidéo de grande taille. Grâce à une représentation de la vidéo sous forme d’image en grille, nous pouvons générer des vidéos de haute qualité en utilisant une quantité fixe de mémoire GPU, indépendamment du nombre de cadres. En outre, en réduisant les dimensions de la vidéo à celles d’une image, diverses méthodes basées sur les images peuvent être directement appliquées aux vidéos, telles que la manipulation vidéo guidée par le texte à partir de techniques de manipulation d’image. Notre méthode obtient de meilleurs résultats que les approches existantes, tant sur les évaluations quantitatives que qualitatives, démontrant ainsi sa pertinence pour la génération vidéo dans des applications du monde réel.

Modèles de diffusion sur grille pour la génération vidéo à partir de texte | Articles de recherche récents | HyperAI