Schwach überwachtes Co-Training mit Austausch von Zuweisungen für die semantische Segmentierung

Klassifizierungsaktivierungskarten (Class Activation Maps, CAMs) werden üblicherweise in der schwach überwachten semantischen Segmentierung (Weakly Supervised Semantic Segmentation, WSSS) eingesetzt, um Pseudolabels zu erzeugen. Aufgrund unvollständiger oder übermäßiger Klassifizierungsaktivierungen greifen bestehende Studien häufig auf Offline-CAM-Verbesserungsverfahren zurück, die zusätzliche Schritte oder spezielle Offline-Module erfordern. Dies kann die Optimierung einstufiger Methoden erschweren und deren Verallgemeinerungsfähigkeit einschränken. In dieser Arbeit zielen wir darauf ab, die beobachtete Inkonsistenz und Fehler in CAMs zu verringern, um die Abhängigkeit von Nachbearbeitungsprozessen zu reduzieren. Wir schlagen ein end-to-end-WSSS-Modell vor, das geführte CAMs integriert, bei dem unser Segmentierungsmodell gleichzeitig mit der Online-Optimierung der CAMs trainiert wird. Unser Ansatz, Co-Training mit Austausch-Zuordnungen (CoSA), nutzt einen Dual-Stream-Architekturansatz, bei dem ein Teilnetzwerk aus den von anderen Teilnetzwerken generierten vertauschten Zuordnungen lernt. Wir führen drei Techniken ein: i) eine Soft-Perplexität-basierte Regularisierung, um unsichere Regionen zu bestrafen; ii) einen Schwellenwert-Suchansatz zur dynamischen Anpassung der Konfidenzschwelle; und iii) kontrastive Trennung zur Lösung des Koexistenzproblems. CoSA erzielt herausragende Ergebnisse mit einem mIoU von 76,2 % und 51,0 % auf den Validierungsdatensätzen VOC und COCO, wobei die bestehenden Baselines erheblich übertroffen werden. Insbesondere ist CoSA der erste einstufige Ansatz, der alle bestehenden mehrstufigen Methoden – einschließlich solcher mit zusätzlicher Aufsicht – schlägt. Der Quellcode ist unter \url{https://github.com/youshyee/CoSA} verfügbar.