Transformateur vidéo latent

La tâche de génération vidéo peut être formulée comme une prédiction des cadres vidéo futurs à partir de cadres passés. Les modèles génératifs récents pour la vidéo sont confrontés à un problème de besoins élevés en calcul. Certains modèles nécessitent jusqu’à 512 unités de traitement tensoriel (Tensor Processing Units) pour une formation parallèle. Dans ce travail, nous abordons ce problème en modélisant la dynamique dans un espace latent. Après la transformation des cadres vidéo vers l’espace latent, notre modèle prédit de manière autoregressive la représentation latente des cadres suivants. Nous démontrons la performance de notre approche sur les jeux de données BAIR Robot Pushing et Kinetics-600. Cette méthode permet de réduire les exigences de calcul à seulement 8 unités de traitement graphique (Graphical Processing Units) pour l’entraînement des modèles, tout en maintenant une qualité de génération comparable.