Clustering-Guided Class Activation pour la segmentation sémantique supervisée faiblement
Les méthodes de segmentation sémantique faiblement supervisées (WSSS) basées sur les transformateurs ont fait l’objet d’études actives grâce à leur forte capacité à capturer le contexte global. Toutefois, comme la fonction d’activation ne met en évidence que quelques tokens dans le mécanisme d’attention auto-associative du transformateur, ces approches souffrent encore de cartes d’attention éparses, entraînant la génération d’étiquettes pseudo-étiquetées incomplètes. Dans cet article, nous proposons un nouveau schéma d’activation de classes permettant d’attirer uniformément l’attention sur toute la région de l’objet. L’idée centrale de notre méthode consiste à activer la région de l’objet en suivant la guidance des clusters formés en combinant des caractéristiques d’image similaires provenant du même objet. Plus précisément, la carte d’activation de classe guidée par le clustering (ClusterCAM) est générée à partir d’un module d’attention basé sur le clustering, et les régions fortement réactives de cette carte sont ensuite utilisées pour activer les objets cibles dans l’espace de caractéristiques encodées. Cela permet au modèle d’explorer l’ensemble de la région de l’objet en exploitant la proximité sémantique entre les patchs extraits à partir du même objet. Sur la base de cette approche, nous avons conçu un cadre WSSS end-to-end capable d’entraîner simultanément les réseaux de classification et de segmentation de manière mono-étape. Les résultats expérimentaux sur des jeux de données de référence montrent que notre méthode dépasse significativement les approches WSSS précédentes, y compris plusieurs méthodes multi-étapes. Le code et les modèles sont disponibles publiquement à l’adresse suivante : https://github.com/DCVL-WSSS/ClusterCAM.