SimVP : Une Prédiction Vidéo Plus Simple Mais Plus Performante

Depuis les réseaux de neurones récurrents (RNN) jusqu’aux réseaux de transformateurs visionnels (ViT), nous avons assisté à des progrès remarquables dans la prédiction vidéo, intégrant des entrées auxiliaires, des architectures neurales sophistiquées et des stratégies d’entraînement avancées. Si nous admirons ces avancées, nous sommes toutefois perplexes quant à leur nécessité : existe-t-il une méthode simple capable de produire des performances comparables ? Ce papier propose SimVP, un modèle de prédiction vidéo simple, entièrement basé sur des réseaux de neurones convolutifs (CNN) et entraîné de manière end-to-end via une perte MSE. Sans recourir à des astuces supplémentaires ni à des stratégies complexes, nous parvenons à atteindre des performances de pointe sur cinq jeux de données standard. À travers des expériences étendues, nous démontrons que SimVP possède une forte capacité de généralisation et d’extensibilité sur des jeux de données du monde réel. La réduction significative des coûts d’entraînement facilite sa mise à l’échelle dans des scénarios complexes. Nous pensons que SimVP peut servir de base solide pour stimuler le développement futur de la prédiction vidéo. Le code est disponible à l’adresse suivante : \href{https://github.com/gaozhangyang/SimVP-Simpler-yet-Better-Video-Prediction}{Github}.