HyperAIHyperAI
vor 11 Tagen

SemiVL: Semigewünschte semantische Segmentierung mit visueller Sprachführung

Lukas Hoyer, David Joseph Tan, Muhammad Ferjad Naeem, Luc Van Gool, Federico Tombari
SemiVL: Semigewünschte semantische Segmentierung mit visueller Sprachführung
Abstract

Bei der semi-supervised semantischen Segmentierung wird ein Modell mit einer begrenzten Anzahl an annotierten Bildern sowie einer großen Menge an ungelabelten Bildern trainiert, um den hohen Aufwand bei der Annotation zu reduzieren. Während frühere Ansätze in der Lage sind, gute Segmentierungsränder zu lernen, neigen sie aufgrund der eingeschränkten Supervision dazu, Klassen mit ähnlicher visueller Erscheinung zu verwechseln. Andererseits können Vision-Sprache-Modelle (VLMs) vielfältiges semantisches Wissen aus Bild-Beschriftungsdatenbanken lernen, produzieren jedoch aufgrund des Bild-Level-Trainings rauschhafte Segmentierungen. In SemiVL schlagen wir vor, reichhaltige Vorwissen aus der VLM-Vortrainierung in die semi-supervised semantische Segmentierung zu integrieren, um bessere semantische Entscheidungsgrenzen zu erlernen. Um das VLM von globaler auf lokale Schlussfolgerung anzupassen, führen wir eine räumliche Feinabstimmungsstrategie für eine label-effiziente Lernweise ein. Zudem entwerfen wir einen sprachgesteuerten Decoder, der visuelle und sprachliche Informationen gemeinsam verarbeiten kann. Schließlich schlagen wir vor, inhärente Mehrdeutigkeiten in Klassenbezeichnungen durch sprachliche Anleitung in Form von Klassendefinitionen zu bewältigen. Wir evaluieren SemiVL auf vier semantischen Segmentierungs-Datensätzen, wobei es signifikant bessere Ergebnisse als bisherige semi-supervised Ansätze erzielt. Beispielsweise steigert SemiVL die State-of-the-Art-Leistung um +13,5 mIoU auf COCO mit nur 232 annotierten Bildern und um +6,1 mIoU auf Pascal VOC mit 92 Labels. Projektseite: https://github.com/google-research/semivl

SemiVL: Semigewünschte semantische Segmentierung mit visueller Sprachführung | Neueste Forschungsarbeiten | HyperAI