SwinLSTM: Steigerung der Genauigkeit räumlich-zeitlicher Vorhersagen durch Swin Transformer und LSTM

Die Integration von CNNs und RNNs zur Erfassung von räumlich-zeitlichen Abhängigkeiten ist eine gängige Strategie für Aufgaben der räumlich-zeitlichen Vorhersage. Allerdings verringert die Fähigkeit von CNNs, lokale räumliche Informationen zu lernen, ihre Effizienz bei der Erfassung räumlich-zeitlicher Abhängigkeiten und begrenzt somit ihre Vorhersagegenauigkeit. In diesem Artikel stellen wir eine neue rekurrente Zelle, SwinLSTM, vor, die Swin-Transformer-Blöcke und die vereinfachte LSTM integriert. Diese Erweiterung ersetzt die konvolutionelle Struktur in ConvLSTM durch einen Selbst-Attention-Mechanismus. Darüber hinaus entwickeln wir ein Netzwerk, dessen Kern aus der SwinLSTM-Zelle besteht, um räumlich-zeitliche Vorhersagen durchzuführen. Ohne auf spezielle Tricks zurückzugreifen, übertrifft SwinLSTM state-of-the-art-Methoden auf den Datensätzen Moving MNIST, Human3.6m, TaxiBJ und KTH. Insbesondere zeigt sie eine signifikante Verbesserung der Vorhersagegenauigkeit im Vergleich zu ConvLSTM. Unsere überzeugenden experimentellen Ergebnisse belegen, dass das Lernen globaler räumlicher Abhängigkeiten für Modelle vorteilhafter ist, um räumlich-zeitliche Abhängigkeiten effektiv zu erfassen. Wir hoffen, dass SwinLSTM als solide Baseline zur Förderung der Weiterentwicklung der Genauigkeit räumlich-zeitlicher Vorhersagen dienen kann. Der Quellcode ist öffentlich verfügbar unter https://github.com/SongTang-x/SwinLSTM.