HyperAIHyperAI
il y a 7 jours

Phenaki : Génération de vidéos de longueur variable à partir de descriptions textuelles du domaine ouvert

Ruben Villegas, Mohammad Babaeizadeh, Pieter-Jan Kindermans, Hernan Moraldo, Han Zhang, Mohammad Taghi Saffar, Santiago Castro, Julius Kunze, Dumitru Erhan
Phenaki : Génération de vidéos de longueur variable à partir de descriptions textuelles du domaine ouvert
Résumé

Nous présentons Phenaki, un modèle capable de synthétiser des vidéos réalistes à partir d'une séquence de promts textuels. La génération de vidéos à partir de texte est particulièrement difficile en raison du coût computationnel élevé, de la quantité limitée de données textes-vidéos de haute qualité, ainsi que de la longueur variable des vidéos. Pour surmonter ces défis, nous introduisons un nouveau modèle d'apprentissage de représentations vidéo, qui compresse la vidéo en une petite représentation constituée de tokens discrets. Ce tokenizer utilise une attention causale dans le temps, ce qui lui permet de traiter des vidéos de longueur variable. Pour générer des tokens vidéo à partir de texte, nous utilisons un transformer à masquage bidirectionnel conditionné sur des tokens textuels prédéfinis. Les tokens vidéo générés sont ensuite détokenisés pour produire la vidéo réelle. En ce qui concerne les problèmes liés aux données, nous démontrons que l'entraînement conjoint sur un vaste corpus de paires image-texte, combiné à un nombre restreint d'exemples vidéo-texte, permet une généralisation au-delà des données disponibles dans les jeux de données vidéo. Contrairement aux méthodes précédentes de génération vidéo, Phenaki peut générer des vidéos de longueur arbitraire conditionnées sur une séquence de promts (c’est-à-dire du texte variable dans le temps ou une histoire) dans un domaine ouvert. À notre connaissance, c’est la première étude à explorer la génération de vidéos à partir de promts variables dans le temps. En outre, par rapport aux méthodes de base par cadre, l’encodeur-décodeur vidéo proposé traite moins de tokens par vidéo tout en offrant une meilleure cohérence spatio-temporelle.

Phenaki : Génération de vidéos de longueur variable à partir de descriptions textuelles du domaine ouvert | Articles de recherche récents | HyperAI