HyperAIHyperAI

Command Palette

Search for a command to run...

Entkopplung der zero-shot semantischen Segmentierung

Jian Ding Nan Xue Gui-Song Xia Dengxin Dai

Zusammenfassung

Zero-shot-Semantische Segmentierung (ZS3) zielt darauf ab, neue Kategorien zu segmentieren, die während des Trainings nicht gesehen wurden. Bisherige Ansätze formulieren ZS3 als ein pixelbasiertes Zero-shot-Klassifikationsproblem und übertragen semantisches Wissen von gesehenen auf nicht gesehene Klassen mithilfe von Sprachmodellen, die ausschließlich mit Texten vortrainiert wurden. Obwohl dieser Ansatz einfach ist, zeigt die pixelbasierte Formulierung eine begrenzte Fähigkeit, Vision-Sprache-Modelle zu integrieren, die typischerweise mit Bild-Text-Paaren vortrainiert werden und derzeit großes Potenzial für visuelle Aufgaben zeigen. Ausgehend von der Beobachtung, dass Menschen häufig semantische Bezeichnungen auf Segmentebene durchführen, schlagen wir vor, ZS3 in zwei Teilprobleme zu zerlegen: 1) eine klassenunabhängige Gruppierungsaufgabe, um Pixel in Segmente zu gruppieren, und 2) eine Zero-shot-Klassifikationsaufgabe auf Segmentebene. Die erste Aufgabe beinhaltet keine Kategorieninformation und kann direkt auf nicht gesehene Klassen übertragen werden. Die zweite Aufgabe erfolgt auf Segmentebene und ermöglicht eine natürliche Nutzung großer Vision-Sprache-Modelle, die mit Bild-Text-Paaren vortrainiert wurden (z. B. CLIP), für ZS3. Auf Basis dieser Dekomposition stellen wir ein einfaches und wirksames Modell zur Zero-shot-Semantischen Segmentierung vor, namens ZegFormer, das die bisherigen Methoden auf Standardbenchmarks für ZS3 deutlich übertrifft, beispielsweise um 22 Punkte auf PASCAL VOC und um 3 Punkte auf COCO-Stuff hinsichtlich der mIoU für nicht gesehene Klassen. Der Quellcode wird unter https://github.com/dingjiansw101/ZegFormer veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Entkopplung der zero-shot semantischen Segmentierung | Paper | HyperAI