Transformateur Swin vidéo

La communauté du vision est en train de subir un changement de paradigme, passant des réseaux de neurones convolutifs (CNN) aux Transformers, où des architectures entièrement basées sur les Transformers ont atteint des performances de précision maximales sur les principaux benchmarks de reconnaissance vidéo. Ces modèles vidéo reposent tous sur des couches Transformer qui établissent des connexions globales entre les patches à la fois dans les dimensions spatiales et temporelles. Dans ce papier, nous proposons au contraire d’introduire une biais inductif de localité dans les Transformers vidéo, ce qui permet d’obtenir un meilleur compromis entre vitesse et précision par rapport aux approches antérieures, qui calculent l’attention auto-associative de manière globale, même lorsqu’elles utilisent une factorisation spatio-temporelle. La localité de l’architecture vidéo proposée est mise en œuvre en adaptant le Swin Transformer, initialement conçu pour le traitement d’images, tout en conservant l’avantage des modèles pré-entraînés sur des images. Notre approche atteint des performances de pointe sur une large gamme de benchmarks de reconnaissance vidéo, notamment en reconnaissance d’actions (84,9 % de précision top-1 sur Kinetics-400 et 86,1 % sur Kinetics-600, avec environ 20 fois moins de données pour le pré-entraînement et une taille de modèle réduite d’un facteur 3), ainsi qu’en modélisation temporelle (69,6 % de précision top-1 sur Something-Something v2). Le code et les modèles seront rendus accessibles au public à l’adresse suivante : https://github.com/SwinTransformer/Video-Swin-Transformer.