Predcnn: Prädiktives Lernen mit kaskadenförmigen Faltungen
Die Vorhersage zukünftiger Bildfolgen in Videos bleibt ein ungelöstes, jedoch herausforderndes Problem. Mainstream-Modelle mit rekurrenten Strukturen leiden unter hohem Speicherverbrauch und Rechenkosten, während convolutionale Modelle die zeitlichen Abhängigkeiten zwischen aufeinanderfolgenden Videobildern nicht effektiv erfassen können. Um dieses Problem anzugehen, stellen wir eine vollständig auf CNNs basierende Architektur, PredCNN, vor, die die Abhängigkeiten zwischen dem nächsten Frame und der sequenziellen Eingabe von Videobildern modelliert. Inspiriert von der zentralen Idee rekurrenter Modelle – dass frühere Zustände mehr Übergangsoperationen als zukünftige Zustände aufweisen – entwickeln wir eine kaskadenartige multiplikative Einheit (CMU), die den vorherigen Videobildern relativ mehr Operationen zuweist. Diese neu vorgeschlagene Einheit ermöglicht es PredCNN, zukünftige spatiotemporale Daten ohne jegliche rekurrente Kettenstrukturen vorherzusagen, was die Gradientenweiterleitung erleichtert und eine vollständig parallele Optimierung ermöglicht. Wir zeigen, dass PredCNN auf dem standardisierten Moving MNIST-Datensatz sowie auf zwei anspruchsvollen Datensätzen zur Menschenstromvorhersage die derzeit besten rekurrenten Modelle übertrifft und zudem eine schnellere Trainingsgeschwindigkeit sowie einen geringeren Speicherverbrauch erreicht.