Prédiction de vidéos par transformateurs sans récurrence ni convolution

La prédiction vidéo a vu émerger des modèles basés sur les RNN, notamment ConvLSTM, ainsi que des modèles basés sur les CNN, tels que SimVP. Suite à l'essor remarquable des modèles ViT, des travaux récents ont intégré cette architecture tant dans les cadres RNN que CNN, obtenant des performances améliorées. Bien que nous reconnaissions l'importance de ces approches antérieures, nous posons une question fondamentale : existe-t-il une solution plus simple mais tout aussi efficace, capable d'éliminer le coût computationnel élevé des RNN tout en surmontant les champs réceptifs limités et la faible généralisation des CNN ? Jusqu’où peut-on aller avec un modèle pur de type Transformer simple pour la prédiction vidéo ? Dans cet article, nous proposons PredFormer, un cadre entièrement fondé sur des Transformers à porte (Gated Transformers). Nous fournissons une analyse approfondie de l’attention 3D dans le contexte de la prédiction vidéo. Des expériences étendues démontrent que PredFormer atteint des performances de pointe sur quatre benchmarks standards. Les améliorations significatives en termes de précision et d’efficacité mettent en lumière le potentiel de PredFormer en tant que base solide pour des applications réelles de prédiction vidéo. Le code source et les modèles entraînés seront publiés à l’adresse suivante : https://github.com/yyyujintang/PredFormer.