Command Palette
Search for a command to run...
Clustering-Guided Class Activation für schwach überwachte semantische Segmentierung
Clustering-Guided Class Activation für schwach überwachte semantische Segmentierung
Wonjun Kim Yeong Woo Kim
Zusammenfassung
Schwach beschriftete semantische Segmentierung (WSSS) Methoden basierend auf Transformer wurden aktiv erforscht, da sie über eine starke Fähigkeit zur Erfassung globaler Kontextinformationen verfügen. Allerdings leiden diese Ansätze weiterhin unter spärlichen Aufmerksamkeitskarten, da die Aktivierungsfunktion im Selbst-Attention-Mechanismus des Transformers lediglich wenige Token hervorhebt. Dies führt zur Erzeugung unvollständiger Pseudolabels. In diesem Artikel stellen wir ein neuartiges Klassen-Aktivierungsschema vor, das in der Lage ist, die gesamte Objektregion gleichmäßig hervorzuheben. Der zentrale Ansatz der vorgeschlagenen Methode besteht darin, die Aktivierung der Objektregion durch eine Cluster-Guidance zu steuern, wobei die Cluster aus ähnlichen Bildmerkmalen des gleichen Objekts gebildet werden. Konkret wird die cluster-gesteuerte Klassen-Aktivierungskarte (ClusterCAM) durch einen neuartigen, auf Clustering basierenden Aufmerksamkeitsmodul generiert. Hochreaktive Regionen dieser Karte werden anschließend genutzt, um die Zielobjekte im kodierten Merkmalsraum zu aktivieren. Dadurch kann das Modell die gesamte Region des Zielobjekts erkunden, indem es die semantische Nähe zwischen Patch-Tokens nutzt, die aus demselben Objekt extrahiert wurden. Auf dieser Grundlage entwerfen wir einen end-to-end WSSS-Framework, der Klassifikations- und Segmentierungsnetworks in einer einstufigen, gleichzeitigen Trainingsweise optimiert. Experimentelle Ergebnisse auf Benchmark-Datensätzen zeigen, dass unsere Methode die vorherigen WSSS-Ansätze, einschließlich mehrerer mehrstufiger Ansätze, signifikant übertrifft. Der Quellcode und die Modelle sind öffentlich verfügbar unter: https://github.com/DCVL-WSSS/ClusterCAM.