il y a 11 jours

VideoPoet : un Modèle de Langage Énorme pour la Génération Vidéo Zéro-Shot

Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang

Voir les détails de l'article

VideoPoet : un Modèle de Langage Énorme pour la Génération Vidéo Zéro-Shot

Résumé

Nous présentons VideoPoet, un modèle linguistique capable de synthétiser des vidéos de haute qualité, accompagnées d’un audio correspondant, à partir d’une large variété de signaux de conditionnement. VideoPoet repose sur une architecture de transformateur uniquement décodeur, capable de traiter des entrées multimodales — incluant des images, des vidéos, du texte et de l’audio. Le protocole d’entraînement suit celui des grands modèles linguistiques (LLM), comprenant deux étapes : un préentraînement suivi d’une adaptation spécifique à une tâche. Pendant le préentraînement, VideoPoet intègre un mélange d’objectifs génératifs multimodaux dans un cadre de transformateur autoregressif. Le modèle LLM préentraîné sert de fondation pouvant être adapté à diverses tâches de génération vidéo. Nous présentons des résultats expérimentaux démontrant les capacités de pointe du modèle en génération vidéo zéro-shot, en mettant particulièrement en évidence sa capacité à produire des mouvements de haute fidélité. Page du projet : http://sites.research.google/videopoet/