Twins : Revisiter la conception de l'attention spatiale dans les Vision Transformers

Récemment, une variété d'architectures de transformateurs de vision pour des tâches de prédiction dense a été proposée, et celles-ci montrent que la conception de l'attention spatiale est cruciale pour leur succès dans ces tâches. Dans ce travail, nous revisitons la conception de l'attention spatiale et démontrons qu’un mécanisme d’attention spatiale soigneusement conçu, tout en restant simple, se distingue avantageusement par rapport aux approches de pointe. En conséquence, nous proposons deux architectures de transformateurs de vision, nommées Twins-PCPVT et Twins-SVT. Les architectures proposées sont hautement efficaces et faciles à implémenter, ne nécessitant que des multiplications matricielles, fortement optimisées dans les cadres modernes d'apprentissage profond. Plus important encore, ces architectures atteignent des performances exceptionnelles sur une large gamme de tâches visuelles, incluant la classification d’image ainsi que la détection et la segmentation denses. La simplicité combinée à des performances remarquables suggère que nos architectures proposées pourraient servir de squelettes plus puissants pour de nombreuses tâches de vision. Le code source est disponible à l’adresse suivante : https://github.com/Meituan-AutoML/Twins.