VideoPoet : un Modèle de Langage Énorme pour la Génération Vidéo Zéro-Shot

Nous présentons VideoPoet, un modèle linguistique capable de synthétiser des vidéos de haute qualité, accompagnées d’un audio correspondant, à partir d’une large variété de signaux de conditionnement. VideoPoet repose sur une architecture de transformateur uniquement décodeur, capable de traiter des entrées multimodales — incluant des images, des vidéos, du texte et de l’audio. Le protocole d’entraînement suit celui des grands modèles linguistiques (LLM), comprenant deux étapes : un préentraînement suivi d’une adaptation spécifique à une tâche. Pendant le préentraînement, VideoPoet intègre un mélange d’objectifs génératifs multimodaux dans un cadre de transformateur autoregressif. Le modèle LLM préentraîné sert de fondation pouvant être adapté à diverses tâches de génération vidéo. Nous présentons des résultats expérimentaux démontrant les capacités de pointe du modèle en génération vidéo zéro-shot, en mettant particulièrement en évidence sa capacité à produire des mouvements de haute fidélité. Page du projet : http://sites.research.google/videopoet/