PredRNN: Rekurrente neuronale Netze für prädiktives Lernen mit räumlich-zeitlichen LSTMs

Die prädiktive Lernmethode für raumzeitliche Folgen zielt darauf ab, zukünftige Bilder durch Lernen aus historischen Frames zu generieren, wobei räumliche Erscheinungsbilder und zeitliche Veränderungen zwei entscheidende Strukturen darstellen. In diesem Artikel wird ein prädiktiver rekurrenter neuronaler Netzwerkansatz (PredRNN) vorgestellt, der diese Strukturen modelliert. Die Architektur wird durch die Idee inspiriert, dass die prädiktive raumzeitliche Lernung sowohl räumliche Erscheinungsbilder als auch zeitliche Veränderungen in einem einheitlichen Gedächtnispool speichern sollte. Konkret sind die Gedächtniszustände nicht mehr auf einzelne LSTM-Einheiten beschränkt, sondern können in zwei Richtungen hin und her wechseln: vertikal über die gestapelten RNN-Schichten hinweg und horizontal über alle RNN-Zustände hinweg. Der Kern dieser Netzarchitektur ist eine neuartige Spatiotemporal-LSTM-(ST-LSTM)-Einheit, die räumliche und zeitliche Repräsentationen gleichzeitig extrahiert und speichert. PredRNN erreicht die derzeit beste Vorhersageleistung auf drei Datensätzen für Videovorhersage und stellt einen allgemeineren Ansatz dar, der durch Integration mit anderen Architekturen leicht auf weitere prädiktive Lernaufgaben erweitert werden kann.