Stochastische adversäre Video-Vorhersage

Die Fähigkeit, zukünftige Ereignisse vorhersagen zu können, erfordert ein tiefgründiges Verständnis der physikalischen und kausalen Regeln, die die Welt bestimmen. Ein Modell, das dies kann, bietet eine Reihe von attraktiven Anwendungen, von der roboterstechnischen Planung bis zum Lernen von Repräsentationen. Das Lernen der Vorhersage roher zukünftiger Beobachtungen, wie etwa Bilder in einem Video, ist jedoch außerordentlich herausfordernd – die mehrdeutige Natur des Problems kann dazu führen, dass ein naiv konzipiertes Modell mögliche Zukünfte zu einer einzigen unscharfen Vorhersage zusammenfasst. Kürzlich wurden diese Schwierigkeiten durch zwei unterschiedliche Ansätze angegangen: (a) latente Variablenmodelle mit expliziter Modellierung der zugrundeliegenden Stochastik und (b) adversarisch trainierte Modelle, die darauf abzielen, natürliche Bilder zu erzeugen. Ein Standard-Modell mit latenten Variablen kann jedoch Schwierigkeiten haben, realistische Ergebnisse zu produzieren, während ein standardmäßig adversarisch trainiertes Modell latente Variablen unternutzt und versagt bei der Erzeugung vielfältiger Vorhersagen. Wir zeigen, dass diese unterschiedlichen Methoden tatsächlich ergänzend sind. Die Kombination beider Ansätze erzeugt Vorhersagen, die menschlichen Beurteilern realistischer erscheinen und den Bereich der möglichen Zukünfte besser abdecken. Unsere Methode übertrifft frühere und gleichzeitige Arbeiten in diesen Aspekten.