HyperAIHyperAI

Command Palette

Search for a command to run...

Video Prediction Transformers ohne Rekurrenz oder Faltung

Yujin Tang Lu Qi Fei Xie Xiangtai Li Chao Ma Ming-Hsuan Yang

Zusammenfassung

Die Vorhersage von Videos hat die Entwicklung von RNN-basierten Modellen, angeführt von ConvLSTM, sowie von CNN-basierten Modellen, angeführt von SimVP, erlebt. In Anbetracht des erheblichen Erfolgs von ViT haben jüngere Arbeiten Versuche unternommen, ViT sowohl in RNN- als auch in CNN-Rahmen zu integrieren, wodurch eine verbesserte Leistung erzielt wurde. Obwohl wir diese vorherigen Ansätze schätzen, stellen wir eine grundlegende Frage: Gibt es eine einfachere, aber leistungsfähigere Lösung, die die hohe Rechenkosten von RNNs vermeidet und gleichzeitig die begrenzten Rezeptivfelder und die schlechte Generalisierungsfähigkeit von CNNs überwindet? Wie weit kann man mit einem einfachen reinen Transformer-Modell bei der Videovorhersage kommen? In dieser Arbeit präsentieren wir PredFormer, einen vollständig auf Gated Transformers basierenden Rahmen. Wir führen eine umfassende Analyse der 3D-Attention im Kontext der Videovorhersage durch. Ausführliche Experimente zeigen, dass PredFormer state-of-the-art-Leistung auf vier etablierten Benchmarks erzielt. Die signifikanten Verbesserungen sowohl in Genauigkeit als auch in Effizienz unterstreichen das Potenzial von PredFormer als starken Baseline für praktische Anwendungen der Videovorhersage. Der Quellcode und die trainierten Modelle werden unter https://github.com/yyyujintang/PredFormer veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp