La Posture Révèle : Prévision Vidéo par Génération de Futures Postures

Les approches actuelles en prévision vidéo tentent de générer des vidéos directement dans l'espace des pixels en utilisant des Réseaux de Génération Adversariaux (GANs) ou des Autoencodeurs Variationnels (VAEs). Cependant, comme ces approches essaient de modéliser toute la structure et les dynamiques de la scène en une seule fois, elles génèrent souvent des résultats peu interprétables dans des cadres non contraints. Notre intuition est de modéliser le problème de prévision à un niveau d'abstraction plus élevé. Plus précisément, nous exploitons les détecteurs de pose humaine comme une source gratuite de supervision et décomposons le problème de prévision vidéo en deux étapes distinctes. Tout d'abord, nous modélisons explicitement la structure de haut niveau des objets actifs dans la scène – les humains – et utilisons un VAE pour modéliser les mouvements futurs possibles des humains dans l'espace de pose. Nous utilisons ensuite les poses futures générées comme information conditionnelle pour un GAN afin de prédire les futures images du vidéo dans l'espace des pixels. En utilisant l'espace structuré de la pose comme représentation intermédiaire, nous évitons les problèmes que rencontrent les GANs lorsqu'ils génèrent directement des pixels vidéo. Nous montrons par évaluation quantitative et qualitative que notre méthode surpasse les méthodes d'état de l'art pour la prédiction vidéo.