SLAMP: Stochastic Latent Appearance and Motion Prediction

Bewegung ist ein wichtiger Hinweis für die Videovorhersage und wird häufig genutzt, indem der Videoinhalt in statische und dynamische Komponenten zerlegt wird. Die meisten vorherigen Ansätze, die Bewegung nutzen, sind deterministisch, doch es existieren auch stochastische Methoden, die die inhärente Unsicherheit der Zukunft modellieren können. Bestehende stochastische Modelle berücksichtigen entweder nicht explizit die Bewegung oder treffen einschränkende Annahmen über den statischen Teil. In diesem Paper betrachten wir sowohl Erscheinungsbild als auch Bewegung stochastisch, indem wir die Zukunft auf Basis der Bewegungsgeschichte vorhersagen. Die explizite Berücksichtigung der Bewegung ohne Verwendung einer Historie erreicht bereits die Leistungsfähigkeit aktueller stochastischer Modelle. Die Bewegungshistorie verbessert die Ergebnisse weiterhin, indem sie die Vorhersage konsistenter Dynamik mehrere Frames in die Zukunft ermöglicht. Unser Modell erzielt eine Leistung, die mit den besten bisherigen Modellen auf allgemeinen Videovorhersagedatensätzen vergleichbar ist, übertrifft diese jedoch deutlich auf zwei anspruchsvollen realen Datensätzen aus dem Bereich autonomes Fahren mit komplexer Bewegung und dynamischem Hintergrund.