Génération de vidéos avec dynamique de scène

Nous exploitons de grandes quantités de vidéos non étiquetées afin d'apprendre un modèle de dynamique des scènes pour les tâches de reconnaissance vidéo (par exemple, la classification d'actions) et les tâches de génération vidéo (par exemple, la prédiction du futur). Nous proposons un réseau génératif adversarial pour vidéo avec une architecture convolutive spatio-temporelle qui dissocie le premier plan de l'arrière-plan de la scène. Les expériences suggèrent que ce modèle peut générer des vidéos miniatures jusqu'à une seconde à la vitesse normale des images mieux que les baselines simples, et nous démontrons son utilité pour prédire des futurs plausibles d'images statiques. De plus, les expériences et les visualisations montrent que le modèle apprend internalement des caractéristiques utiles pour reconnaître les actions avec un minimum de supervision, suggérant que la dynamique des scènes est un signal prometteur pour l'apprentissage de représentations. Nous croyons que les modèles génératifs vidéo peuvent avoir un impact sur de nombreuses applications dans la compréhension et la simulation vidéo.