HyperAIHyperAI

Command Palette

Search for a command to run...

Offene-Vokabular-Semantische Segmentierung mit Bild-Embedding-Ausgleich

Xiangheng Shan Dongyue Wu Guilin Zhu Yuanjie Shao* Nong Sang Changxin Gao

Zusammenfassung

Die offene Vokabular-Semantische Segmentierung ist eine anspruchsvolle Aufgabe, die das Modell dazu verpflichtet, semantische Masken eines Bildes über einen geschlossenen Vokabularbereich hinaus zu generieren. Obwohl zahlreiche Versuche unternommen wurden, leistungsstarke CLIP-Modelle für diese Aufgabe zu nutzen, sind sie aufgrund der natürlichen Lücken in der semantischen Information zwischen Trainings- und neuen Klassen immer noch leicht überangepasst (overfitting). Um dieser Herausforderung zu begegnen, schlagen wir ein neues Framework für die offene Vokabular-Semantische Segmentierung vor, das EBSeg genannt wird. Es integriert einen adaptiv ausbalancierten Dekoder (Adaptively Balanced Decoder, AdaB-Dekoder) und einen Verlust zur Konsistenz der semantischen Struktur (Semantic Structure Consistency Loss, SSC-Verlust). Der AdaB-Dekoder ist so konzipiert, dass er unterschiedliche Bild-Einbettungen sowohl für Trainings- als auch für neue Klassen erzeugt. Anschließend werden diese beiden Arten von Einbettungen adaptiv ausbalanciert, um ihre Fähigkeit zur Erkennung von Trainingsklassen vollständig auszuschöpfen und die Generalisierungsleistung für neue Klassen zu verbessern. Um eine konsistente semantische Struktur aus CLIP zu lernen, passt der SSC-Verlust die Interklassen-Affinität im Bildmerkmalsraum an die im Textmerkmalsraum von CLIP an, wodurch die Generalisierungsleistung unseres Modells gesteigert wird. Darüber hinaus verwenden wir einen gefrorenen SAM-Bildencoder, um die räumliche Information zu ergänzen, die aufgrund der geringen Auflösung der Trainingsbilder und der bildbasierten Überwachung in CLIP fehlt. Ausführliche Experimente auf verschiedenen Benchmarks zeigen, dass das vorgeschlagene EBSeg den aktuellen Stand der Technik übertreffen kann. Unser Code und trainierte Modelle sind hier verfügbar: https://github.com/slonetime/EBSeg.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp