Pixelweise Instanzsegmentierung mit einem dynamisch instanziierten Netzwerk

Die Forschung zu semantischer Segmentierung und Objekterkennung hat in letzter Zeit rasche Fortschritte gemacht. Allerdings kennt die erstgenannte Aufgabe keine Unterscheidung zwischen verschiedenen Instanzen desselben Objekts, während die letztere nur auf grober, umrandeter Ebene arbeitet. Wir schlagen ein System zur Instanzsegmentierung vor, das eine Segmentierungskarte erzeugt, bei der jedem Pixel eine Objektklasse und ein Instanzidentifikationslabel zugewiesen wird. Die meisten Ansätze passen Objekterkennungsverfahren an, um Segmente statt Kästen zu produzieren. Im Gegensatz dazu basiert unsere Methode auf einem anfänglichen Modul für semantische Segmentierung, das in ein Instanzunternetzwerk eingespeist wird. Dieses Unterwerk verwendet die anfängliche Kategorieebenen-Segmentierung sowie Hinweise aus der Ausgabe eines Objekterkenners innerhalb eines end-to-end CRFs (Conditional Random Fields), um Instanzen vorherzusagen. Dieser Teil unseres Modells wird dynamisch instanziiert, um pro Bild eine variable Anzahl von Instanzen zu erzeugen. Unser end-to-end-Ansatz erfordert keine Nachbearbeitung und betrachtet das Bild ganzheitlich, anstatt unabhängige Vorschläge zu verarbeiten. Daher kann im Gegensatz zu manchen verwandten Arbeiten ein Pixel nicht zu mehreren Instanzen gehören. Darüber hinaus werden viel präzisere Segmentierungen erreicht, wie unsere Spitzenresultate (insbesondere bei hohen IoU-Schwellenwerten) auf den Datensätzen Pascal VOC und Cityscapes zeigen.