SimVP: Einfacher, aber besser Video-Vorhersage

Von CNNs über RNNs bis hin zu ViTs haben wir bemerkenswerte Fortschritte in der Videovorhersage miterlebt, die ergänzende Eingaben, komplexe neuronale Architekturen und anspruchsvolle Trainingsstrategien integrieren. Wir bewundern diese Entwicklungen, sind jedoch verwirrt über deren Notwendigkeit: Gibt es eine einfache Methode, die vergleichbare Leistung erzielt? In diesem Artikel stellen wir SimVP vor – ein einfaches Modell für die Videovorhersage, das vollständig auf CNNs basiert und end-to-end mittels MSE-Verlust trainiert wird. Ohne zusätzliche Tricks oder komplizierte Strategien erreichen wir state-of-the-art Ergebnisse auf fünf Benchmark-Datensätzen. Durch erweiterte Experimente zeigen wir, dass SimVP eine starke Generalisierbarkeit und Erweiterbarkeit auf realen Datensätzen besitzt. Die erhebliche Reduktion der Trainingskosten ermöglicht eine einfachere Skalierung auf komplexe Szenarien. Wir sind überzeugt, dass SimVP als solide Basis dienen kann, um die weitere Entwicklung der Videovorhersage voranzutreiben. Der Quellcode ist unter \href{https://github.com/gaozhangyang/SimVP-Simpler-yet-Better-Video-Prediction}{Github} verfügbar.