vor 2 Monaten

Zero-Shot Semantische Segmentierung

Maxime Bucher; Tuan-Hung Vu; Matthieu Cord; Patrick Pérez

Abstract

Semantische Segmentierungsmodelle sind in ihrer Fähigkeit begrenzt, auf eine große Anzahl von Objektklassen zu skalieren. In dieser Arbeit stellen wir die neue Aufgabe der Null-Shot-Semantischen Segmentierung vor: das Lernen von pixelbasierten Klassifizierern für bisher nicht gesehene Objektkategorien ohne Trainingsbeispiele. Zu diesem Zweck präsentieren wir eine neuartige Architektur, ZS3Net, die ein tiefes visuelles Segmentierungsmodell mit einem Ansatz zur Generierung visueller Repräsentationen aus semantischen Wort-Einbettungen kombiniert. Auf diese Weise befasst sich ZS3Net mit Pixelklassifikationsaufgaben, bei denen sowohl gesehene als auch nicht gesehene Kategorien zur Testzeit auftreten (sogenannte „verallgemeinerte“ Null-Shot-Klassifikation). Die Leistung wird durch einen Selbsttrainingschritt verbessert, der auf der automatischen Pseudobeschriftung von Pixeln aus nicht gesehenen Klassen basiert. Anhand der beiden standardmäßigen Segmentierungsdatasets Pascal-VOC und Pascal-Context schlagen wir Null-Shot-Benchmarks vor und legen wettbewerbsfähige Baselines fest. Für komplexe Szenen wie die im Pascal-Context-Datensatz erweitern wir unseren Ansatz durch die Verwendung einer Graph-Kontext-Codierung, um räumliche Kontextpriors vollständig aus den klassenweisen Segmentierungskarten zu nutzen.