HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP ist auch ein effizienter Segmentierer: Ein textgesteuertes Ansatzverfahren für schwach überwachte semantische Segmentierung

Yuqi Lin Minghao Chen Wenxiao Wang Boxi Wu Ke Li Binbin Lin Haifeng Liu Xiaofei He

Zusammenfassung

Schwach beschriftete semantische Segmentierung (WSSS) mit Bild-Level-Labels stellt eine herausfordernde Aufgabe dar. Die gängigen Ansätze folgen einem mehrstufigen Framework und weisen hohe Trainingskosten auf. In dieser Arbeit untersuchen wir das Potenzial von Contrastive Language-Image Pre-training-Modellen (CLIP), um verschiedene Kategorien ausschließlich anhand von Bild-Level-Labels zu lokalisieren, ohne zusätzliche Nachtrainierung durchzuführen. Um effizient hochwertige Segmentierungsmasken aus CLIP zu generieren, schlagen wir einen neuartigen WSSS-Ansatz namens CLIP-ES vor. Unser Framework verbessert alle drei Stufen des WSSS durch spezielle Anpassungen für CLIP: 1) Wir integrieren die Softmax-Funktion in GradCAM und nutzen die Zero-Shot-Fähigkeit von CLIP, um Verwirrung durch Nicht-Ziel-Klassen und Hintergründe zu unterdrücken. Gleichzeitig erforschen wir unter dem WSSS-Kontext erneut die Texteingaben und entwickeln zwei textgetriebene Strategien: eine auf Schärfe basierende Prompt-Auswahl sowie eine Synonym-Fusion. 2) Um die Stufe der CAM-Verfeinerung zu vereinfachen, schlagen wir ein Echtzeit-Modul zur klassenbewussten, auf Aufmerksamkeit basierenden Affinität (CAA) vor, das auf der inhärenten Multi-Head-Self-Attention (MHSA) in CLIP-ViTs beruht. 3) Beim Training des endgültigen Segmentierungsmodells mit den von CLIP generierten Masken führen wir eine vertrauensbasierte Verlustfunktion (CGL) ein, die sich auf vertrauenswürdige Regionen konzentriert. Unser CLIP-ES erreicht SOTA-Leistung auf Pascal VOC 2012 und MS COCO 2014, wobei lediglich 10 % der Zeit der vorherigen Methoden für die Generierung von Pseudomasken benötigt werden. Der Quellcode ist unter https://github.com/linyq2117/CLIP-ES verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp