HyperAIHyperAI
il y a 11 jours

LAVIE : Génération de vidéos de haute qualité à l’aide de modèles de diffusion latente en cascade

Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu
LAVIE : Génération de vidéos de haute qualité à l’aide de modèles de diffusion latente en cascade
Résumé

Ce travail vise à apprendre un modèle génératif de texte à vidéo (T2V) de haute qualité en s’appuyant sur un modèle pré-entraîné de texte à image (T2I) comme base. Il s’agit d’une tâche à la fois très souhaitable et extrêmement difficile, consistant à simultanément : a) réaliser la synthèse de vidéos visuellement réalistes et temporellement cohérentes, tout en b) préservant le fort potentiel créatif inhérent au modèle T2I pré-entraîné. À cette fin, nous proposons LaVie, un cadre intégré de génération vidéo reposant sur des modèles de diffusion latents vidéo en cascade, comprenant un modèle de base T2V, un modèle d’interpolation temporelle et un modèle de super-résolution vidéo. Nos principales découvertes s’articulent autour de deux axes : 1) Nous démontrons que l’intégration d’attention temporelle auto-attentionnelle simple, couplée à une encodage positionnel rotatif, permet de capturer adéquatement les corrélations temporelles inhérentes aux données vidéo. 2) Par ailleurs, nous validons que le processus d’ajustement fin conjoint d’images et de vidéos joue un rôle déterminant dans la production de résultats de haute qualité et créatifs. Pour améliorer les performances de LaVie, nous proposons un ensemble de données vidéo complet et diversifié, nommé Vimeo25M, composé de 25 millions de paires texte-vidéo, mettant l’accent sur la qualité, la diversité et l’aspect esthétique. Des expérimentations étendues montrent que LaVie atteint des performances de pointe, tant sur le plan quantitatif que qualitatif. En outre, nous mettons en évidence la polyvalence des modèles LaVie pré-entraînés dans diverses applications de génération vidéo longue et de synthèse vidéo personnalisée.

LAVIE : Génération de vidéos de haute qualité à l’aide de modèles de diffusion latente en cascade | Articles de recherche récents | HyperAI