HyperAIHyperAI
vor einem Monat

Zerlegung von Bewegung und Inhalt für die Vorhersage natürlicher Videosequenzen

Ruben Villegas; Jimei Yang; Seunghoon Hong; Xunyu Lin; Honglak Lee
Zerlegung von Bewegung und Inhalt für die Vorhersage natürlicher Videosequenzen
Abstract

Wir schlagen ein tiefes neuronales Netzwerk zur Vorhersage zukünftiger Frames in natürlichen Videosequenzen vor. Um die komplexe Evolution der Pixel in Videos effektiv zu bewältigen, schlagen wir eine Zerlegung von Bewegung und Inhalt vor, den beiden Schlüsselkomponenten, die Dynamik in Videos erzeugen. Unser Modell basiert auf einem Encoder-Decoder-Faltungsneuronales Netzwerk (Convolutional Neural Network) und einem Faltungs-LSTM (Convolutional LSTM) für die Vorhersage auf Pixel-Ebene, welche unabhängig voneinander das räumliche Layout eines Bildes und die entsprechenden zeitlichen Dynamiken erfassen. Durch die unabhängige Modellierung von Bewegung und Inhalt reduziert sich die Vorhersage des nächsten Frames darauf, die extrahierten Inhaltsmerkmale durch die identifizierten Bewegungsmerkmale in den Inhalt des nächsten Frames zu transformieren, was die Aufgabe der Vorhersage vereinfacht. Unser Modell ist über mehrere Zeitpunkte hinweg end-to-end trainierbar und lernt natürlich, Bewegung und Inhalt zu zerlegen, ohne getrennte Trainingsphasen zu benötigen. Wir evaluieren die vorgeschlagene Netzwerkarchitektur anhand von Videosequenzen menschlicher Aktivitäten unter Verwendung der Datensätze KTH, Weizmann Action und UCF-101. Wir zeigen eine Stand-of-the-Art-Leistung im Vergleich zu aktuellen Ansätzen. Nach bestem Wissen handelt es sich dabei um das erste end-to-end trainierbare Netzwerk mit Trennung von Bewegung und Inhalt zur Modellierung der räumlich-zeitlichen Dynamiken für die Vorhersage zukünftiger Frames auf Pixel-Ebene in natürlichen Videos.