HyperAIHyperAI
il y a 16 jours

Show-1 : Mariage entre les modèles de diffusion sur pixels et sur latents pour la génération vidéo à partir de texte

Zhang, David Junhao, Wu, Jay Zhangjie, Liu, Jia-Wei, Zhao, Rui, Ran, Lingmin, Gu, Yuchao, Gao, Difei, Shou, Mike Zheng
Show-1 : Mariage entre les modèles de diffusion sur pixels et sur latents pour la génération vidéo à partir de texte
Résumé

Des progrès significatifs ont été réalisés dans le domaine des grands modèles pré-entraînés de diffusion texte-vidéo (VDM). Toutefois, les méthodes antérieures reposent soit exclusivement sur des VDM basés sur les pixels, qui entraînent des coûts computationnels élevés, soit sur des VDM basés sur l’espace latent, qui peinent souvent à assurer une correspondance précise entre texte et vidéo. Dans ce travail, nous proposons pour la première fois un modèle hybride, nommé Show-1, qui combine les VDM basés sur les pixels et ceux basés sur l’espace latent pour la génération de vidéos à partir de texte. Notre modèle commence par utiliser des VDM basés sur les pixels afin de produire une vidéo de faible résolution présentant une forte corrélation entre texte et vidéo. Ensuite, nous introduisons une nouvelle méthode d’expertise de transformation qui exploite les VDM basés sur l’espace latent pour amplifier la résolution de cette vidéo de basse résolution, tout en éliminant potentiellement les artefacts et les dégradations présents dans les vidéos de faible résolution. Contrairement aux VDM basés sur l’espace latent, Show-1 permet de générer des vidéos de haute qualité avec une correspondance textuelle et vidéo précise ; par rapport aux VDM basés sur les pixels, Show-1 est nettement plus efficace (utilisation de la mémoire GPU pendant l’inférence : 15 Go contre 72 Go). En outre, notre modèle Show-1 peut facilement être adapté à des applications telles que la personnalisation du mouvement ou la stylisation vidéo grâce à un fine-tuning simple de couches d’attention temporelle. Notre modèle atteint des performances de pointe sur les benchmarks standards de génération vidéo. Le code source et les poids du modèle sont disponibles publiquement à l’adresse suivante : https://github.com/showlab/Show-1.

Show-1 : Mariage entre les modèles de diffusion sur pixels et sur latents pour la génération vidéo à partir de texte | Articles de recherche récents | HyperAI