Command Palette
Search for a command to run...
GETAM : Carte d'attention Transformer élément par élément pondérée par le gradient pour la segmentation sémantique faiblement supervisée
GETAM : Carte d'attention Transformer élément par élément pondérée par le gradient pour la segmentation sémantique faiblement supervisée
Weixuan Sun Jing Zhang Zheyuan Liu Yiran Zhong Nick Barnes
Résumé
La segmentation sémantique faiblement supervisée (WSSS) est un défi particulièrement marqué lorsqu’elle est supervisée par des étiquettes au niveau de l’image pour prédire au niveau des pixels. Pour combler cet écart, une carte d’activation de classe (CAM) est généralement produite afin de fournir des pseudo-étiquettes au niveau des pixels. Toutefois, les CAMs issues des réseaux de neurones convolutifs souffrent d’un phénomène d’activation partielle, c’est-à-dire que seules les régions les plus discriminantes sont activées. À l’inverse, les méthodes basées sur les Transformers sont particulièrement efficaces pour explorer le contexte global grâce à leur capacité à modéliser des dépendances à longue portée, ce qui pourrait atténuer le problème d’activation partielle. Dans cet article, nous proposons la première approche WSSS fondée sur les Transformers, et introduisons la carte d’attention Transformer pondérée par le gradient (GETAM). La GETAM révèle une activation fine à l’échelle des éléments de la carte de caractéristiques, mettant en évidence différentes parties d’un objet à travers les différentes couches du Transformer. Par ailleurs, nous proposons un module de complétion d’étiquettes conscient de l’activation, conçu pour générer des pseudo-étiquettes de haute qualité. Enfin, nous intégrons ces méthodes dans un cadre end-to-end pour la WSSS, utilisant une propagation arrière double. Des expériences étendues sur les jeux de données PASCAL VOC et COCO montrent que nos résultats surpassent de manière significative les approches état-de-l’art end-to-end, et dépassent la plupart des méthodes multi-étapes.