il y a 2 mois

Max Pooling avec des Transformers de Vision réconcilie la classe et la forme dans le découpage sémantique faiblement supervisé

Simone Rossetti; Damiano Zappia; Marta Sanzari; Marco Schaerf; Fiora Pirri

Résumé

La recherche sur la segmentation sémantique faiblement supervisée (WSSS) a exploré de nombreuses directions pour améliorer le pipeline typique composé d'un réseau neuronal convolutif (CNN) plus des cartes d'activation de classe (CAM) plus des raffinements, en utilisant uniquement l'étiquette de classe d'image comme supervision. Bien que l'écart avec les méthodes pleinement supervisées soit réduit, il semble peu probable que cette tendance se poursuive dans ce cadre. D'autre part, les méthodes WSSS basées sur les Transformers visuels (ViT) n'ont pas encore exploré de véritables alternatives à la CAM. Il a été démontré que les caractéristiques des ViT conservent une disposition de scène et des contours d'objets dans l'apprentissage auto-supervisé. Pour confirmer ces résultats, nous prouvons que les avantages des transformateurs dans les méthodes auto-supervisées sont renforcés par le Global Max Pooling (GMP), qui peut utiliser les caractéristiques de patch pour négocier la probabilité pixel-étiquette avec la probabilité de classe. Ce travail propose une nouvelle méthode WSSS appelée ViT-PCM (ViT Patch-Class Mapping), qui ne repose pas sur la CAM. Le réseau présenté de bout en bout apprend avec un seul processus d'optimisation, affinant la forme et assurant une localisation appropriée pour les masques de segmentation. Notre modèle surpassse l'état de l'art sur les masques pseudo-baselines (BPM), où nous atteignons un mIoU de $69,3\%$ sur l'ensemble $val$ PascalVOC 2012. Nous montrons que notre approche possède le moins grand ensemble de paramètres, tout en obtenant une précision supérieure à celle de toutes les autres approches. En résumé, les résultats quantitatifs et qualitatifs de notre méthode révèlent que ViT-PCM est une excellente alternative aux architectures basées sur CNN-CAM.