Make-A-Video : Génération de vidéos à partir de texte sans données texte-vidéo

Nous proposons Make-A-Video, une approche permettant de traduire directement les progrès récents considérables réalisés dans la génération d’images à partir de texte (Text-to-Image, T2I) vers la génération de vidéos à partir de texte (Text-to-Video, T2V). Notre intuition est simple : apprendre à partir de données textes-images appariées à quoi ressemble le monde et comment il est décrit, puis apprendre à quelles mouvements il obéit à partir de séquences vidéo non étiquetées. Make-A-Video présente trois avantages principaux : (1) elle accélère l’entraînement du modèle T2V (celui-ci n’a pas besoin d’apprendre les représentations visuelles et multimodales depuis zéro), (2) elle ne nécessite pas de données textes-vidéo appariées, et (3) les vidéos générées héritent de la richesse (diversité esthétique, représentations fantastiques, etc.) des modèles actuels de génération d’images. Nous avons conçu une méthode simple mais efficace pour exploiter les modèles T2I en intégrant de nouveaux modules spatio-temporels performants. Premièrement, nous décomposons les tenseurs complets du U-Net temporel et des mécanismes d’attention, puis les approximons de manière séparée dans l’espace et le temps. Deuxièmement, nous proposons une chaîne de traitement spatio-temporelle pour générer des vidéos de haute résolution et à taux d’images élevé, à l’aide d’un décodeur vidéo, d’un modèle d’interpolation et de deux modèles de suréchantillonnage, capables de soutenir diverses applications au-delà de la génération T2V. Dans tous les aspects — résolution spatiale et temporelle, fidélité au texte, qualité — Make-A-Video établit un nouveau état de l’art en génération vidéo à partir de texte, selon des évaluations à la fois qualitatives et quantitatives.