Max-Pooling mit Vision-Transformern versöhnt Klasse und Form in schwach überwachter semantischer Segmentierung

Forschungen zum schwach überwachten semantischen Segmentieren (WSSS) haben viele Richtungen erkundet, um den üblichen Prozess aus CNN plus Klassenaktivierungskarten (CAM) plus Verfeinerungen zu verbessern, wobei die Bildklassenbezeichnung die einzige Überwachung darstellt. Obwohl der Abstand zu vollständig überwachten Methoden reduziert wurde, scheint eine weitere Verringerung innerhalb dieses Rahmens unwahrscheinlich. Andererseits haben WSSS-Methoden, die auf Vision Transformers (ViT) basieren, noch keine gültigen Alternativen zu CAM untersucht. Es wurde gezeigt, dass ViT-Features in selbstüberwachten Lernmethoden eine Szenenstruktur und Objektränder beibehalten können. Um diese Erkenntnisse zu bestätigen, beweisen wir, dass die Vorteile von Transformatoren in selbstüberwachten Methoden durch globales Max-Pooling (GMP) weiter verstärkt werden, das Patch-Features nutzen kann, um die Pixel-Label-Wahrscheinlichkeit mit der Klassenwahrscheinlichkeit abzustimmen. Diese Arbeit schlägt eine neue WSSS-Methode vor, die als ViT-PCM (ViT Patch-Class Mapping) bezeichnet wird und nicht auf CAM basiert. Das vorgestellte Netzwerk lernt von Anfang bis Ende mit einem einzigen Optimierungsprozess und verfeinert Form und korrekte Lokalisierung für Segmentierungsmasken. Unser Modell übertrifft den Stand der Technik bei Baseline-Pseudo-Masken (BPM), wo wir ein mIoU von $69{,}3\,\%$ auf dem PascalVOC 2012 $val$-Datensatz erzielen. Wir zeigen, dass unser Ansatz die geringste Anzahl an Parametern hat und dennoch höhere Genauigkeit als alle anderen Ansätze erreicht. In einem Satz: Quantitative und qualitative Ergebnisse unserer Methode offenbaren, dass ViT-PCM eine ausgezeichnete Alternative zu CNN-CAM-basierten Architekturen ist.