Video Prediction Transformers ohne Rekurrenz oder Faltung

Die Vorhersage von Videos hat die Entwicklung von RNN-basierten Modellen, angeführt von ConvLSTM, sowie von CNN-basierten Modellen, angeführt von SimVP, erlebt. In Anbetracht des erheblichen Erfolgs von ViT haben jüngere Arbeiten Versuche unternommen, ViT sowohl in RNN- als auch in CNN-Rahmen zu integrieren, wodurch eine verbesserte Leistung erzielt wurde. Obwohl wir diese vorherigen Ansätze schätzen, stellen wir eine grundlegende Frage: Gibt es eine einfachere, aber leistungsfähigere Lösung, die die hohe Rechenkosten von RNNs vermeidet und gleichzeitig die begrenzten Rezeptivfelder und die schlechte Generalisierungsfähigkeit von CNNs überwindet? Wie weit kann man mit einem einfachen reinen Transformer-Modell bei der Videovorhersage kommen? In dieser Arbeit präsentieren wir PredFormer, einen vollständig auf Gated Transformers basierenden Rahmen. Wir führen eine umfassende Analyse der 3D-Attention im Kontext der Videovorhersage durch. Ausführliche Experimente zeigen, dass PredFormer state-of-the-art-Leistung auf vier etablierten Benchmarks erzielt. Die signifikanten Verbesserungen sowohl in Genauigkeit als auch in Effizienz unterstreichen das Potenzial von PredFormer als starken Baseline für praktische Anwendungen der Videovorhersage. Der Quellcode und die trainierten Modelle werden unter https://github.com/yyyujintang/PredFormer veröffentlicht.