Prédiction Vidéo Adversariale Stochastique

La capacité à prédire ce qui pourrait se produire à l'avenir nécessite une compréhension approfondie des règles physiques et causales qui gouvernent le monde. Un modèle capable de le faire offre de nombreuses applications attractives, allant de la planification robotique à l'apprentissage de représentations. Cependant, apprendre à prédire des observations futures brutes, comme les images dans une vidéo, est extrêmement difficile -- la nature ambiguë du problème peut amener un modèle conçu naïvement à moyennes les différentes possibilités futures en une seule prédiction floue. Récemment, deux approches distinctes ont été proposées pour résoudre ce problème : (a) les modèles à variables latentes variationnelles qui modélisent explicitement l'aléatoire sous-jacent et (b) les modèles entraînés de manière adversariale visant à produire des images naturalistes. Cependant, un modèle standard à variables latentes peut avoir du mal à générer des résultats réalistes, tandis qu'un modèle standard entraîné de manière adversariale sous-exploite les variables latentes et échoue à produire des prédictions diversifiées. Nous montrons que ces méthodes distinctes sont en fait complémentaires. Leur combinaison produit des prédictions qui paraissent plus réalistes aux évaluateurs humains et couvrent mieux l'éventail des possibles futurs. Notre méthode surpasse les travaux antérieurs et contemporains dans ces aspects.