PredRNN++: Auf dem Weg zur Lösung des tiefen Zeitdilemmas im raumzeitlichen Vorhersagelearning

Wir präsentieren PredRNN++, ein verbessertes rekurrentes Netzwerk für das vorhersagende Lernen in Videos. Um eine stärkere räumlich-zeitliche Modellierungsfähigkeit zu erreichen, erhöht unser Ansatz die Übergangstiefe zwischen benachbarten Zuständen durch den Einsatz einer neuartigen rekurrenten Einheit, die als Causal LSTM (ursächliches LSTM) bezeichnet wird und die räumlichen und zeitlichen Erinnerungen in einem kaskadenförmigen Mechanismus neu organisiert. Allerdings besteht in der vorhersagenden Video-Lernung immer noch ein Dilemma: Immer tiefergehende Modelle wurden entwickelt, um komplexe Variationen zu erfassen, was jedoch zusätzliche Schwierigkeiten bei der Rückwärtspropagation des Gradienten mit sich bringt. Um diesen unerwünschten Effekt zu mildern, schlagen wir eine Gradienten-Highway-Architektur vor, die alternative kürzere Wege für den Gradientenfluss von den Ausgaben zurück zu langfristigen Eingaben bereitstellt. Diese Architektur arbeitet nahtlos mit ursächlichen LSTMs zusammen, wodurch PredRNN++ in der Lage ist, kurzfristige und langfristige Abhängigkeiten anpassungsfähig zu erfassen. Wir evaluieren unser Modell sowohl auf synthetischen als auch auf realen Videodatensätzen und zeigen seine Fähigkeit, das Problem des verschwindenden Gradienten zu lindern und selbst in schwierigen Szenarien mit verdeckten Objekten standesgemäße Vorhersageergebnisse zu erzielen.