Die Haltung verrät: Videoprognose durch die Generierung zukünftiger Haltungen

Aktuelle Ansätze im Bereich der Video-Vorhersage versuchen, Videos direkt im Pixelraum unter Verwendung von Generativen Wettbewerbsnetzen (GANs) oder Variational Autoencoders (VAEs) zu generieren. Allerdings erzeugen diese Ansätze in unbeschränkten Szenarien oft uninterpretierbare Ergebnisse, da sie versuchen, alle Strukturen und Szendynamiken gleichzeitig zu modellieren. Unser Einblick besteht darin, das Vorhersageproblem auf einer höheren Abstraktionsstufe zu modellieren. Insbesondere nutzen wir menschliche Pose-Detektoren als kostenlose Quelle der Überwachung und gliedern das Problem der Video-Vorhersage in zwei diskrete Schritte. Zunächst modellieren wir die hochstufige Struktur aktiver Objekte in der Szene – Menschen – und verwenden einen VAE, um die möglichen zukünftigen Bewegungen der Menschen im Poseraum zu modellieren. Anschließend nutzen wir die generierten zukünftigen Posen als bedingende Information für ein GAN, um die zukünftigen Bilder des Videos im Pixelraum vorherzusagen. Durch die Nutzung des strukturierten Poseraums als Zwischendarstellung umgehen wir die Probleme, die GANs bei der direkten Generierung von Videopixeln haben. Wir zeigen durch quantitative und qualitative Auswertungen, dass unsere Methode den Stand der Technik bei Video-Vorhersagen übertrifft.