MAGVIT : Transformateur vidéo génératif masqué

Nous introduisons le modèle MAGVIT (MAsked Generative VIdeo Transformer), conçu pour traiter diverses tâches de synthèse vidéo à l’aide d’un seul modèle. Nous proposons un tokenizer 3D pour quantifier une vidéo en tokens visuels spatio-temporels, ainsi qu’une méthode d’embedding pour la modélisation de tokens vidéo masqués, afin de favoriser l’apprentissage multi-tâches. Des expérimentations étendues démontrent la qualité, l’efficacité et la flexibilité de MAGVIT. Nos résultats montrent que : (i) MAGVIT se distingue favorablement des approches de pointe et établit le meilleur score publié en FVD sur trois benchmarks de génération vidéo, y compris le défi difficile Kinetics-600 ; (ii) MAGVIT surpasser largement les méthodes existantes en temps d’inférence, avec une accélération de deux ordres de grandeur par rapport aux modèles à diffusion, et d’un facteur 60 par rapport aux modèles autoregressifs ; (iii) un seul modèle MAGVIT prend en charge dix tâches de génération diverses et généralise efficacement à des vidéos provenant de domaines visuels variés. Le code source et les modèles entraînés seront rendus publics à l’adresse suivante : https://magvit.cs.cmu.edu.