HyperAIHyperAI
il y a 11 jours

Apprentissage de cohérence par paires complètes pour la segmentation sémantique faiblement supervisée

Weixuan Sun, Yanhao Zhang, Zhen Qin, Zheyuan Liu, Lin Cheng, Fanyi Wang, Yiran Zhong, Nick Barnes
Apprentissage de cohérence par paires complètes pour la segmentation sémantique faiblement supervisée
Résumé

Dans ce travail, nous proposons une nouvelle régularisation basée sur les transformateurs afin d'améliorer la localisation des objets en segmentation sémantique faiblement supervisée (WSSS). Dans le cadre de la WSSS à niveau d'image, la carte d'activation de classe (CAM) est utilisée pour générer des étiquettes de segmentation pseudo-étiquetées correspondant à la localisation des objets. Pour atténuer le problème de l'activation partielle des CAM, une régularisation de cohérence est appliquée afin de préserver l'invariance de l'intensité d'activation face à différentes augmentations d'image. Toutefois, ces approches négligent les relations par paires entre les régions au sein de chaque CAM, qui capturent le contexte et devraient également être invariantes entre différentes vues d'image. À cet effet, nous proposons une nouvelle régularisation de cohérence à toutes les paires (ACR). Étant donné une paire de vues augmentées, notre méthode régularise les intensités d'activation entre ces deux vues tout en assurant que l'affinité entre les régions au sein de chaque vue reste cohérente. Nous utilisons des transformateurs visuels, dont le mécanisme d'attention auto-attentive intègre naturellement les affinités par paires, ce qui nous permet de régulariser simplement la distance entre les matrices d'attention des paires d'images augmentées. Par ailleurs, nous introduisons une nouvelle méthode de localisation par classe exploitant les gradients du token de classe. Notre méthode peut être intégrée de manière transparente aux méthodes existantes de WSSS basées sur les transformateurs sans modifier leurs architectures. Nous évaluons notre approche sur les jeux de données PASCAL VOC et MS COCO. Nos résultats montrent des cartes de localisation de classes nettement améliorées (67,3 % de mIoU sur l'ensemble d'entraînement de PASCAL VOC), conduisant à des performances supérieures en WSSS.

Apprentissage de cohérence par paires complètes pour la segmentation sémantique faiblement supervisée | Articles de recherche récents | HyperAI