HyperAIHyperAI

Command Palette

Search for a command to run...

Make-A-Video : Génération de vidéos à partir de texte sans données texte-vidéo

Résumé

Nous proposons Make-A-Video, une approche permettant de traduire directement les progrès récents considérables réalisés dans la génération d’images à partir de texte (Text-to-Image, T2I) vers la génération de vidéos à partir de texte (Text-to-Video, T2V). Notre intuition est simple : apprendre à partir de données textes-images appariées à quoi ressemble le monde et comment il est décrit, puis apprendre à quelles mouvements il obéit à partir de séquences vidéo non étiquetées. Make-A-Video présente trois avantages principaux : (1) elle accélère l’entraînement du modèle T2V (celui-ci n’a pas besoin d’apprendre les représentations visuelles et multimodales depuis zéro), (2) elle ne nécessite pas de données textes-vidéo appariées, et (3) les vidéos générées héritent de la richesse (diversité esthétique, représentations fantastiques, etc.) des modèles actuels de génération d’images. Nous avons conçu une méthode simple mais efficace pour exploiter les modèles T2I en intégrant de nouveaux modules spatio-temporels performants. Premièrement, nous décomposons les tenseurs complets du U-Net temporel et des mécanismes d’attention, puis les approximons de manière séparée dans l’espace et le temps. Deuxièmement, nous proposons une chaîne de traitement spatio-temporelle pour générer des vidéos de haute résolution et à taux d’images élevé, à l’aide d’un décodeur vidéo, d’un modèle d’interpolation et de deux modèles de suréchantillonnage, capables de soutenir diverses applications au-delà de la génération T2V. Dans tous les aspects — résolution spatiale et temporelle, fidélité au texte, qualité — Make-A-Video établit un nouveau état de l’art en génération vidéo à partir de texte, selon des évaluations à la fois qualitatives et quantitatives.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp