SegSort: Segmentierung durch diskriminative Sortierung von Segmenten

Fast alle bestehenden Ansätze des tiefen Lernens für die semantische Segmentierung behandeln diese Aufgabe als ein pixelweises Klassifikationsproblem. Dennoch verstehen Menschen eine Szene nicht in Bezug auf Pixel, sondern durch Zerlegung in perceptuelle Gruppen und Strukturen, die die grundlegenden Bausteine der Wahrnehmung und Erkennung darstellen. Dies motiviert uns, einen end-to-end-ansatz basierend auf pixelweiser metrischer Lernung vorzuschlagen, der diesen Prozess nachahmt. In unserem Ansatz bestimmt die optimale visuelle Repräsentation innerhalb einzelner Bilder die korrekte Segmentierung und assoziiert Segmente mit derselben semantischen Klasse über verschiedene Bilder hinweg. Das zentrale visuelle Lernproblem besteht daher darin, die Ähnlichkeit innerhalb von Segmenten zu maximieren und die Ähnlichkeit zwischen Segmenten zu minimieren. Bei einem solchen Modell, das auf diese Weise trainiert wurde, erfolgt die Inferenz konsistent durch Extraktion pixelweiser Embeddings und anschließende Clusterung, wobei die semantische Bezeichnung durch die Mehrheitsentscheidung der nächstgelegenen Nachbarn aus einer annotierten Menge bestimmt wird.Als Ergebnis präsentieren wir SegSort als ersten Versuch, tiefes Lernen für die unsupervisierte semantische Segmentierung einzusetzen, wobei eine Leistung von 76 % gegenüber der entsprechenden überwachten Methode erreicht wird. Bei Vorliegen von Supervision zeigt SegSort konsistente Verbesserungen gegenüber herkömmlichen Ansätzen, die auf pixelweiser Softmax-Training basieren. Zudem erzeugt unser Ansatz präzisere Grenzlinien und konsistente Regionenvorhersagen. Der vorgeschlagene SegSort liefert zudem eine interpretierbare Ergebnisqualität, da sich jeder Label-Entscheidung leicht aus den abgerufenen nächsten Segmenten nachvollziehen lässt.