SegViTv2 : Exploration de la segmentation sémantique efficace et continue avec des Transformers visuels simples

Ce travail examine les capacités des Transformers visuels simples (ViTs) pour la segmentation sémantique en utilisant un cadre encodeur-décodeur et présente SegViTv2. Dans cette étude, nous introduisons un nouveau module Attention-to-Mask (\atm) pour concevoir un décodeur léger efficace pour les ViTs simples. Le module ATM proposé convertit la carte d'attention globale en masques sémantiques, permettant d'obtenir des résultats de segmentation de haute qualité. Notre décodeur surpasse le décodeur populaire UPerNet en utilisant diverses architectures de ViT en tant que backbone tout en ne consommant qu'environ 5\% du coût computationnel. Pour l'encodeur, nous abordons la préoccupation liée au coût computationnel relativement élevé des encodeurs basés sur les ViT et proposons une structure \emph{Shrunk++} qui intègre des modules de sous-échantillonnage basé sur les requêtes (EQD) et de sur-échantillonnage basé sur les requêtes (QU). La structure Shrunk++ réduit le coût computationnel de l'encodeur jusqu'à 50\% tout en maintenant une performance compétitive. De plus, nous proposons d'adapter SegViT à la segmentation sémantique continue, montrant presque une absence totale d'oubli des connaissances précédemment apprises. Les expériences montrent que notre SegViTv2 proposé dépasse les méthodes de segmentation récentes sur trois benchmarks populaires, notamment les jeux de données ADE20k, COCO-Stuff-10k et PASCAL-Context. Le code est disponible via le lien suivant : \url{https://github.com/zbwxp/SegVit}.