WeakTr : Exploration du Vision Transformer simple pour la segmentation sémantique à supervision faible

Ce papier explore les propriétés du Vision Transformer (ViT) classique pour la segmentation sémantique faiblement supervisée (WSSS). La carte d’activation de classe (CAM) joue un rôle fondamental dans la compréhension d’un réseau de classification et dans le lancement de la tâche WSSS. Nous observons que différentes têtes d’attention du ViT se concentrent sur des régions différentes de l’image. Par conséquent, nous proposons une méthode basée sur des poids pour estimer de manière end-to-end l’importance des têtes d’attention, tout en fusionnant de manière adaptative les cartes d’attention auto-référentes afin d’obtenir des résultats de CAM de haute qualité, caractérisés par une meilleure intégrité des objets. En outre, nous introduisons un décodeur à découpage de gradients basé sur ViT, permettant une reformation en ligne à l’aide des résultats de CAM, afin de compléter la tâche WSSS. Nous appelons ce cadre d’apprentissage faiblement supervisé basé sur un Transformer simple WeakTr. Ce modèle atteint des performances de pointe sur les benchmarks standards : 78,4 % de mIoU sur l’ensemble de validation de PASCAL VOC 2012 et 50,3 % de mIoU sur l’ensemble de validation de COCO 2014. Le code est disponible à l’adresse suivante : https://github.com/hustvl/WeakTr.