HyperAIHyperAI
vor 2 Monaten

Offene-Vokabular-Semantische Segmentierung mit Bild-Embedding-Ausgleich

Xiangheng Shan; Dongyue Wu; Guilin Zhu; Yuanjie Shao; Nong Sang; Changxin Gao
Offene-Vokabular-Semantische Segmentierung mit Bild-Embedding-Ausgleich
Abstract

Die offene Vokabular-Semantische Segmentierung ist eine anspruchsvolle Aufgabe, die das Modell dazu verpflichtet, semantische Masken eines Bildes über einen geschlossenen Vokabularbereich hinaus zu generieren. Obwohl zahlreiche Versuche unternommen wurden, leistungsstarke CLIP-Modelle für diese Aufgabe zu nutzen, sind sie aufgrund der natürlichen Lücken in der semantischen Information zwischen Trainings- und neuen Klassen immer noch leicht überangepasst (overfitting). Um dieser Herausforderung zu begegnen, schlagen wir ein neues Framework für die offene Vokabular-Semantische Segmentierung vor, das EBSeg genannt wird. Es integriert einen adaptiv ausbalancierten Dekoder (Adaptively Balanced Decoder, AdaB-Dekoder) und einen Verlust zur Konsistenz der semantischen Struktur (Semantic Structure Consistency Loss, SSC-Verlust). Der AdaB-Dekoder ist so konzipiert, dass er unterschiedliche Bild-Einbettungen sowohl für Trainings- als auch für neue Klassen erzeugt. Anschließend werden diese beiden Arten von Einbettungen adaptiv ausbalanciert, um ihre Fähigkeit zur Erkennung von Trainingsklassen vollständig auszuschöpfen und die Generalisierungsleistung für neue Klassen zu verbessern. Um eine konsistente semantische Struktur aus CLIP zu lernen, passt der SSC-Verlust die Interklassen-Affinität im Bildmerkmalsraum an die im Textmerkmalsraum von CLIP an, wodurch die Generalisierungsleistung unseres Modells gesteigert wird. Darüber hinaus verwenden wir einen gefrorenen SAM-Bildencoder, um die räumliche Information zu ergänzen, die aufgrund der geringen Auflösung der Trainingsbilder und der bildbasierten Überwachung in CLIP fehlt. Ausführliche Experimente auf verschiedenen Benchmarks zeigen, dass das vorgeschlagene EBSeg den aktuellen Stand der Technik übertreffen kann. Unser Code und trainierte Modelle sind hier verfügbar: https://github.com/slonetime/EBSeg.

Offene-Vokabular-Semantische Segmentierung mit Bild-Embedding-Ausgleich | Neueste Forschungsarbeiten | HyperAI