HyperAIHyperAI

Command Palette

Search for a command to run...

Max-Pooling mit Vision-Transformern versöhnt Klasse und Form in schwach überwachter semantischer Segmentierung

Simone Rossetti; Damiano Zappia; Marta Sanzari; Marco Schaerf; Fiora Pirri

Zusammenfassung

Forschungen zum schwach überwachten semantischen Segmentieren (WSSS) haben viele Richtungen erkundet, um den üblichen Prozess aus CNN plus Klassenaktivierungskarten (CAM) plus Verfeinerungen zu verbessern, wobei die Bildklassenbezeichnung die einzige Überwachung darstellt. Obwohl der Abstand zu vollständig überwachten Methoden reduziert wurde, scheint eine weitere Verringerung innerhalb dieses Rahmens unwahrscheinlich. Andererseits haben WSSS-Methoden, die auf Vision Transformers (ViT) basieren, noch keine gültigen Alternativen zu CAM untersucht. Es wurde gezeigt, dass ViT-Features in selbstüberwachten Lernmethoden eine Szenenstruktur und Objektränder beibehalten können. Um diese Erkenntnisse zu bestätigen, beweisen wir, dass die Vorteile von Transformatoren in selbstüberwachten Methoden durch globales Max-Pooling (GMP) weiter verstärkt werden, das Patch-Features nutzen kann, um die Pixel-Label-Wahrscheinlichkeit mit der Klassenwahrscheinlichkeit abzustimmen. Diese Arbeit schlägt eine neue WSSS-Methode vor, die als ViT-PCM (ViT Patch-Class Mapping) bezeichnet wird und nicht auf CAM basiert. Das vorgestellte Netzwerk lernt von Anfang bis Ende mit einem einzigen Optimierungsprozess und verfeinert Form und korrekte Lokalisierung für Segmentierungsmasken. Unser Modell übertrifft den Stand der Technik bei Baseline-Pseudo-Masken (BPM), wo wir ein mIoU von 69,3%69{,}3\,\%69,3% auf dem PascalVOC 2012 valvalval-Datensatz erzielen. Wir zeigen, dass unser Ansatz die geringste Anzahl an Parametern hat und dennoch höhere Genauigkeit als alle anderen Ansätze erreicht. In einem Satz: Quantitative und qualitative Ergebnisse unserer Methode offenbaren, dass ViT-PCM eine ausgezeichnete Alternative zu CNN-CAM-basierten Architekturen ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp