vor einem Monat

Verbesserte bedingte VRNNs für Videovorhersage

Lluis Castrejon; Nicolas Ballas; Aaron Courville

Abstract

Die Vorhersage zukünftiger Frames für eine Videosequenz ist eine anspruchsvolle Aufgabe des generativen Modellierens. Versprechende Ansätze umfassen wahrscheinlichkeitstheoretische Latenten-Variablen-Modelle wie den Variational Auto-Encoder (VAE). Obwohl VAEs Unsicherheiten bewältigen und mehrere mögliche zukünftige Ausgänge modellieren können, neigen sie dazu, unscharfe Vorhersagen zu erzeugen. In dieser Arbeit argumentieren wir, dass dies ein Zeichen von Underfitting ist. Um dieses Problem anzugehen, schlagen wir vor, die Ausdrucksfähigkeit der latenten Verteilungen zu erhöhen und Likelihood-Modelle mit höherer Kapazität zu verwenden. Unser Ansatz basiert auf einer Hierarchie von latenten Variablen, die eine Familie flexibler A-priori- und A-posteriori-Verteilungen definiert, um die Wahrscheinlichkeit zukünftiger Sequenzen besser zu modellieren. Wir überprüfen unseren Vorschlag durch eine Reihe von Abschätzungsexperimenten (Ablation Experiments) und vergleichen unsere Methode mit aktuellen state-of-the-art Latenten-Variablen-Modellen. Unsere Methode erzielt günstige Ergebnisse unter verschiedenen Metriken in drei unterschiedlichen Datensätzen.