HyperAIHyperAI
il y a 11 jours

VideoCrafter2 : Surmonter les limites des données pour des modèles de diffusion vidéo de haute qualité

Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, Ying Shan
VideoCrafter2 : Surmonter les limites des données pour des modèles de diffusion vidéo de haute qualité
Résumé

La génération vidéo à partir de texte vise à produire une vidéo à partir d’un prompt donné. Récemment, plusieurs modèles commerciaux de vidéo ont réussi à générer des vidéos crédibles, caractérisées par un bruit minimal, des détails excellents et des scores esthétiques élevés. Toutefois, ces modèles reposent sur des jeux de données vidéo à grande échelle, bien filtrés et de haute qualité, qui ne sont pas accessibles à la communauté scientifique. De nombreuses recherches existantes, qui entraînent leurs modèles à l’aide du jeu de données WebVid-10M de faible qualité, peinent à produire des vidéos de haute qualité, car les modèles sont optimisés pour s’ajuster à WebVid-10M. Dans ce travail, nous explorons le schéma d’entraînement des modèles vidéo étendus à partir de Stable Diffusion, et nous étudions la faisabilité d’utiliser des vidéos de faible qualité combinées à des images synthétisées de haute qualité afin d’obtenir un modèle vidéo de haute qualité. Nous analysons d’abord le lien entre les modules spatiaux et temporels des modèles vidéo et le décalage de distribution vers des vidéos de faible qualité. Nous observons qu’un entraînement complet de tous les modules entraîne une couplage plus fort entre les modules spatiaux et temporels que lorsqu’on entraîne uniquement les modules temporels. En exploitant ce couplage renforcé, nous ajustons la distribution vers une qualité supérieure sans dégradation du mouvement en fine-tunant les modules spatiaux à l’aide d’images de haute qualité, aboutissant ainsi à un modèle vidéo générique de haute qualité. Des évaluations sont menées pour démontrer l’avantage du méthode proposée, notamment en termes de qualité d’image, de fluidité du mouvement et de cohérence conceptuelle.

VideoCrafter2 : Surmonter les limites des données pour des modèles de diffusion vidéo de haute qualité | Articles de recherche récents | HyperAI