VideoGPT : Génération vidéo à l’aide de VQ-VAE et de Transformers

Nous présentons VideoGPT : une architecture conceptuellement simple permettant d’étendre le modèle génératif basé sur la vraisemblance aux vidéos naturelles. VideoGPT utilise un VQ-VAE qui apprend des représentations latentes discrètes sous-échantillonnées d’une vidéo brute en exploitant des convolutions 3D et une attention axiale. Une architecture simple inspirée du GPT est ensuite employée pour modéliser de manière autoregressive les latents discrets à l’aide d’encodages de position spatio-temporels. Malgré sa formulation simple et sa facilité d’entraînement, notre architecture parvient à générer des échantillons compétitifs avec les modèles GAN les plus avancés pour la génération vidéo sur le jeu de données BAIR Robot, ainsi que des vidéos naturelles de haute fidélité à partir des jeux de données UCF-101 et TGIF (Tumbler GIF Dataset). Nous espérons que l’architecture proposée servira de référence reproductible pour une implémentation minimaliste de modèles de génération vidéo basés sur les transformateurs. Des exemples et le code sont disponibles à l’adresse suivante : https://wilson1yan.github.io/videogpt/index.html