HyperAIHyperAI

Command Palette

Search for a command to run...

LAVIE : Génération de vidéos de haute qualité à l’aide de modèles de diffusion latente en cascade

Résumé

Ce travail vise à apprendre un modèle génératif de texte à vidéo (T2V) de haute qualité en s’appuyant sur un modèle pré-entraîné de texte à image (T2I) comme base. Il s’agit d’une tâche à la fois très souhaitable et extrêmement difficile, consistant à simultanément : a) réaliser la synthèse de vidéos visuellement réalistes et temporellement cohérentes, tout en b) préservant le fort potentiel créatif inhérent au modèle T2I pré-entraîné. À cette fin, nous proposons LaVie, un cadre intégré de génération vidéo reposant sur des modèles de diffusion latents vidéo en cascade, comprenant un modèle de base T2V, un modèle d’interpolation temporelle et un modèle de super-résolution vidéo. Nos principales découvertes s’articulent autour de deux axes : 1) Nous démontrons que l’intégration d’attention temporelle auto-attentionnelle simple, couplée à une encodage positionnel rotatif, permet de capturer adéquatement les corrélations temporelles inhérentes aux données vidéo. 2) Par ailleurs, nous validons que le processus d’ajustement fin conjoint d’images et de vidéos joue un rôle déterminant dans la production de résultats de haute qualité et créatifs. Pour améliorer les performances de LaVie, nous proposons un ensemble de données vidéo complet et diversifié, nommé Vimeo25M, composé de 25 millions de paires texte-vidéo, mettant l’accent sur la qualité, la diversité et l’aspect esthétique. Des expérimentations étendues montrent que LaVie atteint des performances de pointe, tant sur le plan quantitatif que qualitatif. En outre, nous mettons en évidence la polyvalence des modèles LaVie pré-entraînés dans diverses applications de génération vidéo longue et de synthèse vidéo personnalisée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
LAVIE : Génération de vidéos de haute qualité à l’aide de modèles de diffusion latente en cascade | Articles | HyperAI