Prédiction de vidéos avec VQVAE

Ces dernières années, la tâche de prédiction vidéo — c’est-à-dire la prévision de vidéos futures à partir de cadres vidéo passés — a suscité un intérêt croissant au sein de la communauté scientifique. Dans cet article, nous proposons une nouvelle approche de ce problème fondée sur les Auto-encodeurs Variationnels Quantifiés en Vecteurs (VQ-VAE). Grâce au VQ-VAE, nous compressons des vidéos en haute résolution en un ensemble hiérarchique de variables latentes discrètes multi-échelles. Par rapport aux pixels, cet espace latent compressé présente une dimensionnalité drastiquement réduite, ce qui nous permet d’appliquer des modèles génératifs autoregressifs évolutifs pour prédire les vidéos. Contrairement aux travaux antérieurs qui se sont principalement concentrés sur des jeux de données fortement contraints, nous nous focalisons sur des jeux de données très diversifiés et de grande ampleur, tels que Kinetics-600. Nous réalisons la prédiction vidéo à une résolution plus élevée — 256×256 — sur des vidéos non contraintes, ce qui dépasse tout autre méthode connue à ce jour. Nous validons également notre approche par rapport aux travaux antérieurs à l’aide d’une évaluation humaine réalisée via une plateforme de crowd-sourcing.