SegViT : Segmentation sémantique avec des Transformers de vision simples

Nous explorons la capacité des Vision Transformers (ViTs) simples pour la segmentation sémantique et proposons SegVit. Les réseaux de segmentation basés sur les ViTs précédents apprennent généralement une représentation au niveau des pixels à partir de la sortie du ViT. À la différence, nous exploitons le composant fondamental — le mécanisme d’attention — pour générer des masques destinés à la segmentation sémantique. Plus précisément, nous proposons le module Attention-to-Mask (ATM), dans lequel les cartes de similarité entre un ensemble de tokens apprenables par classe et les cartes de caractéristiques spatiales sont transformées en masques de segmentation. Les expérimentations montrent que SegVit, utilisant le module ATM, surpasser ses prédécesseurs basés sur un ViT simple sur le jeu de données ADE20K, tout en atteignant de nouvelles performances de pointe sur les jeux de données COCO-Stuff-10K et PASCAL-Context. En outre, afin de réduire le coût computationnel du noyau ViT, nous proposons une sous-échantillonnage basé sur les requêtes (QD) et une suréchantillonnage basé sur les requêtes (QU), permettant de construire une architecture réduite, dite « Shrunk ». Grâce à cette structure réduite, le modèle peut économiser jusqu’à 40 % des calculs tout en maintenant des performances compétitives.