VideoFlow: Ein bedingungsabhängiges Flussmodell für die stochastische Generierung von Videos

Generative Modelle, die Sequenzen zukünftiger Ereignisse modellieren und vorhersagen können, sind im Prinzip in der Lage, komplexe reale Phänomene wie physikalische Interaktionen zu erfassen. Ein zentrales Problem bei der Video-Vorhersage ist jedoch, dass die Zukunft hochgradig unbestimmt ist: Eine Reihe von Beobachtungen vergangener Ereignisse kann viele mögliche Zukünfte implizieren. Obwohl eine Reihe neuerer Arbeiten stochastische Modelle untersucht haben, die unsichere Zukünfte repräsentieren können, sind solche Modelle entweder extrem rechenintensiv, wie zum Beispiel pixelbasierte autoregressive Modelle, oder optimieren nicht direkt die Wahrscheinlichkeit der Daten. Nach unserem Wissen ist unsere Arbeit die erste, die mehrfachrahmige Video-Vorhersage mit Normalizing Flows vorschlägt. Dies ermöglicht eine direkte Optimierung der Datenwahrscheinlichkeit und erzeugt hochwertige stochastische Vorhersagen. Wir beschreiben einen Ansatz zur Modellierung der Dynamik des latenten Raums und zeigen, dass flussbasierte generative Modelle eine vielversprechende und wettbewerbsfähige Methode für das generative Modellieren von Videos darstellen.