HyperAIHyperAI
il y a 11 jours

VideoCrafter1 : Modèles de diffusion ouverts pour la génération de vidéos de haute qualité

Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan
VideoCrafter1 : Modèles de diffusion ouverts pour la génération de vidéos de haute qualité
Résumé

La génération vidéo a suscité un intérêt croissant tant dans le milieu académique que dans l’industrie. Bien que des outils commerciaux soient capables de produire des vidéos crédibles, le nombre de modèles open-source disponibles pour les chercheurs et ingénieurs reste limité. Dans ce travail, nous introduisons deux modèles à diffusion pour la génération de vidéos de haute qualité : des modèles texte-vers-vidéo (T2V) et des modèles image-vers-vidéo (I2V). Les modèles T2V synthétisent une vidéo à partir d’une entrée textuelle donnée, tandis que les modèles I2V intègrent en outre une entrée image. Notre modèle T2V proposé permet de générer des vidéos réalistes et de qualité cinématographique à une résolution de $1024 \times 576$, surpassant ainsi d’autres modèles open-source T2V en termes de qualité. Le modèle I2V est conçu pour produire des vidéos qui respectent strictement le contenu de l’image de référence fournie, en préservant fidèlement son contenu, sa structure et son style. Ce modèle constitue le premier modèle fondamental open-source I2V capable de transformer une image donnée en une séquence vidéo tout en respectant des contraintes de préservation du contenu. Nous estimons que ces modèles open-source de génération vidéo contribueront de manière significative aux progrès technologiques au sein de la communauté.

VideoCrafter1 : Modèles de diffusion ouverts pour la génération de vidéos de haute qualité | Articles de recherche récents | HyperAI