HyperAIHyperAI

Command Palette

Search for a command to run...

Max Pooling avec des Transformers de Vision réconcilie la classe et la forme dans le découpage sémantique faiblement supervisé

Simone Rossetti; Damiano Zappia; Marta Sanzari; Marco Schaerf; Fiora Pirri

Résumé

La recherche sur la segmentation sémantique faiblement supervisée (WSSS) a exploré de nombreuses directions pour améliorer le pipeline typique composé d'un réseau neuronal convolutif (CNN) plus des cartes d'activation de classe (CAM) plus des raffinements, en utilisant uniquement l'étiquette de classe d'image comme supervision. Bien que l'écart avec les méthodes pleinement supervisées soit réduit, il semble peu probable que cette tendance se poursuive dans ce cadre. D'autre part, les méthodes WSSS basées sur les Transformers visuels (ViT) n'ont pas encore exploré de véritables alternatives à la CAM. Il a été démontré que les caractéristiques des ViT conservent une disposition de scène et des contours d'objets dans l'apprentissage auto-supervisé. Pour confirmer ces résultats, nous prouvons que les avantages des transformateurs dans les méthodes auto-supervisées sont renforcés par le Global Max Pooling (GMP), qui peut utiliser les caractéristiques de patch pour négocier la probabilité pixel-étiquette avec la probabilité de classe. Ce travail propose une nouvelle méthode WSSS appelée ViT-PCM (ViT Patch-Class Mapping), qui ne repose pas sur la CAM. Le réseau présenté de bout en bout apprend avec un seul processus d'optimisation, affinant la forme et assurant une localisation appropriée pour les masques de segmentation. Notre modèle surpassse l'état de l'art sur les masques pseudo-baselines (BPM), où nous atteignons un mIoU de 69,3%69,3\%69,3% sur l'ensemble valvalval PascalVOC 2012. Nous montrons que notre approche possède le moins grand ensemble de paramètres, tout en obtenant une précision supérieure à celle de toutes les autres approches. En résumé, les résultats quantitatifs et qualitatifs de notre méthode révèlent que ViT-PCM est une excellente alternative aux architectures basées sur CNN-CAM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Max Pooling avec des Transformers de Vision réconcilie la classe et la forme dans le découpage sémantique faiblement supervisé | Articles | HyperAI