Génération vidéo diversifiée à l’aide d’un déclencheur basé sur un processus gaussien

La génération de cadres futurs à partir de quelques cadres contextuels (ou passés) constitue une tâche difficile. Elle exige la modélisation de la cohérence temporelle des vidéos ainsi que de la multi-modalité en termes de diversité des états futurs possibles. Les approches variationnelles actuelles pour la génération vidéo ont tendance à marginaliser les résultats futurs multi-modaux. À la place, nous proposons de modéliser explicitement la multi-modalité des états futurs et d’en tirer parti pour échantillonner des futurs diversifiés. Notre méthode, le Diverse Video Generator, utilise un processus Gaussien (GP) pour apprendre des a priori sur les états futurs à partir du passé, tout en maintenant une distribution de probabilité sur les futurs possibles pour un échantillon donné. En outre, nous exploitons les évolutions de cette distribution au fil du temps pour contrôler l’échantillonnage des états futurs diversifiés, en estimant la fin des séquences en cours. Autrement dit, nous utilisons la variance du GP dans l’espace des fonctions de sortie pour déclencher un changement dans une séquence d’actions. Nous obtenons des résultats de pointe dans la génération de cadres futurs diversifiés, en termes de qualité de reconstruction et de diversité des séquences générées.