HyperAIHyperAI

Command Palette

Search for a command to run...

VideoCrafter2 : Surmonter les limites des données pour des modèles de diffusion vidéo de haute qualité

Haoxin Chen Yong Zhang Xiaodong Cun Menghan Xia Xintao Wang Chao Weng Ying Shan

Résumé

La génération vidéo à partir de texte vise à produire une vidéo à partir d’un prompt donné. Récemment, plusieurs modèles commerciaux de vidéo ont réussi à générer des vidéos crédibles, caractérisées par un bruit minimal, des détails excellents et des scores esthétiques élevés. Toutefois, ces modèles reposent sur des jeux de données vidéo à grande échelle, bien filtrés et de haute qualité, qui ne sont pas accessibles à la communauté scientifique. De nombreuses recherches existantes, qui entraînent leurs modèles à l’aide du jeu de données WebVid-10M de faible qualité, peinent à produire des vidéos de haute qualité, car les modèles sont optimisés pour s’ajuster à WebVid-10M. Dans ce travail, nous explorons le schéma d’entraînement des modèles vidéo étendus à partir de Stable Diffusion, et nous étudions la faisabilité d’utiliser des vidéos de faible qualité combinées à des images synthétisées de haute qualité afin d’obtenir un modèle vidéo de haute qualité. Nous analysons d’abord le lien entre les modules spatiaux et temporels des modèles vidéo et le décalage de distribution vers des vidéos de faible qualité. Nous observons qu’un entraînement complet de tous les modules entraîne une couplage plus fort entre les modules spatiaux et temporels que lorsqu’on entraîne uniquement les modules temporels. En exploitant ce couplage renforcé, nous ajustons la distribution vers une qualité supérieure sans dégradation du mouvement en fine-tunant les modules spatiaux à l’aide d’images de haute qualité, aboutissant ainsi à un modèle vidéo générique de haute qualité. Des évaluations sont menées pour démontrer l’avantage du méthode proposée, notamment en termes de qualité d’image, de fluidité du mouvement et de cohérence conceptuelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp