HyperAIHyperAI
vor 11 Tagen

CLIP ist auch ein effizienter Segmentierer: Ein textgesteuertes Ansatzverfahren für schwach überwachte semantische Segmentierung

Yuqi Lin, Minghao Chen, Wenxiao Wang, Boxi Wu, Ke Li, Binbin Lin, Haifeng Liu, Xiaofei He
CLIP ist auch ein effizienter Segmentierer: Ein textgesteuertes Ansatzverfahren für schwach überwachte semantische Segmentierung
Abstract

Schwach beschriftete semantische Segmentierung (WSSS) mit Bild-Level-Labels stellt eine herausfordernde Aufgabe dar. Die gängigen Ansätze folgen einem mehrstufigen Framework und weisen hohe Trainingskosten auf. In dieser Arbeit untersuchen wir das Potenzial von Contrastive Language-Image Pre-training-Modellen (CLIP), um verschiedene Kategorien ausschließlich anhand von Bild-Level-Labels zu lokalisieren, ohne zusätzliche Nachtrainierung durchzuführen. Um effizient hochwertige Segmentierungsmasken aus CLIP zu generieren, schlagen wir einen neuartigen WSSS-Ansatz namens CLIP-ES vor. Unser Framework verbessert alle drei Stufen des WSSS durch spezielle Anpassungen für CLIP: 1) Wir integrieren die Softmax-Funktion in GradCAM und nutzen die Zero-Shot-Fähigkeit von CLIP, um Verwirrung durch Nicht-Ziel-Klassen und Hintergründe zu unterdrücken. Gleichzeitig erforschen wir unter dem WSSS-Kontext erneut die Texteingaben und entwickeln zwei textgetriebene Strategien: eine auf Schärfe basierende Prompt-Auswahl sowie eine Synonym-Fusion. 2) Um die Stufe der CAM-Verfeinerung zu vereinfachen, schlagen wir ein Echtzeit-Modul zur klassenbewussten, auf Aufmerksamkeit basierenden Affinität (CAA) vor, das auf der inhärenten Multi-Head-Self-Attention (MHSA) in CLIP-ViTs beruht. 3) Beim Training des endgültigen Segmentierungsmodells mit den von CLIP generierten Masken führen wir eine vertrauensbasierte Verlustfunktion (CGL) ein, die sich auf vertrauenswürdige Regionen konzentriert. Unser CLIP-ES erreicht SOTA-Leistung auf Pascal VOC 2012 und MS COCO 2014, wobei lediglich 10 % der Zeit der vorherigen Methoden für die Generierung von Pseudomasken benötigt werden. Der Quellcode ist unter https://github.com/linyq2117/CLIP-ES verfügbar.

CLIP ist auch ein effizienter Segmentierer: Ein textgesteuertes Ansatzverfahren für schwach überwachte semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI