il y a un mois

Amélioration des VRNN conditionnels pour la prédiction vidéo

Lluis Castrejon; Nicolas Ballas; Aaron Courville

Résumé

La prédiction des images futures dans une séquence vidéo est une tâche de modélisation générative complexe. Parmi les approches prometteuses figurent les modèles à variables latentes probabilistes, tels que l'Auto-Encodeur Variationnel (Variational Auto-Encoder). Bien que les AEsV puissent gérer l'incertitude et modéliser plusieurs résultats futurs possibles, ils ont tendance à produire des prédictions floues. Dans ce travail, nous soutenons que cela est un signe de sous-adjustement. Pour remédier à ce problème, nous proposons d'augmenter l'expressivité des distributions latentes et d'utiliser des modèles de vraisemblance à plus grande capacité. Notre approche repose sur une hiérarchie de variables latentes, qui définit une famille de distributions a priori et a posteriori flexibles afin de mieux modéliser la probabilité des séquences futures. Nous validons notre proposition par une série d'expériences d'ablation et comparons notre méthode aux modèles à variables latentes actuellement en pointe. Notre méthode obtient des résultats favorables selon plusieurs métriques dans trois jeux de données différents.