PredRNN: Ein rekurrentes neuronales Netzwerk für raumzeitliche prädiktive Lernverfahren

Die prädiktive Lernmethode zeitlich-raumlicher Sequenzen zielt darauf ab, zukünftige Bilder durch das Lernen aus historischem Kontext zu generieren, wobei angenommen wird, dass die visuellen Dynamiken modulare Strukturen aufweisen, die durch kompositionelle Subsysteme erlernt werden können. In dieser Arbeit modelliert der vorgestellte PredRNN, ein neuartiges rekurrentes Netzwerk, diese Strukturen, indem ein Paar von Gedächtniszellen explizit entkoppelt wird, nahezu unabhängig voneinander arbeitet und schließlich vereinheitlichte Darstellungen der komplexen Umgebung bildet. Konkret verfügt dieses Netzwerk neben der ursprünglichen Gedächtniszelle von LSTM über einen zickzackförmigen Gedächtnisfluss, der sowohl in aufwärts- als auch abwärtsgerichteter Richtung über alle Schichten hinweg propagiert und somit den Austausch gelernter visueller Dynamiken auf unterschiedlichen Ebenen der RNNs ermöglicht. Zudem nutzt das Modell eine Gedächtnis-Entkopplungsverlustfunktion, um zu verhindern, dass die Gedächtniszellen redundante Merkmale erlernen. Wir schlagen außerdem eine neue Curriculum-Lernstrategie vor, die den PredRNN dazu zwingt, langfristige Dynamiken aus Kontextbildern zu erlernen, wobei diese Strategie auf die meisten sequenz-zu-sequenz-Modelle verallgemeinert werden kann. Ausführliche Ablationsstudien bestätigen die Wirksamkeit jedes einzelnen Komponenten. Unser Ansatz erzielt auf fünf Datensätzen sowohl in szenarien ohne Aktion als auch bei aktionsbedingter prädiktiver Lernung hochkonkurrenzfähige Ergebnisse.