Panoptische Segmentierung mit einem gemeinsamen semantischen und instanzbasierten Segmentierungsnetzwerk

Wir präsentieren eine Methode für die panoptische Segmentierung, die auf einem einzelnen Netzwerk basiert. Diese Methode kombiniert die Vorhersagen eines gemeinsam trainierten semantischen und instanzbasierten Segmentierungsnetzwerks unter Verwendung von Heuristiken. Das gemeinsame Training ist der erste Schritt hin zu einem end-to-end panoptischen Segmentierungsnetzwerk und ist schneller sowie speichereffizienter als das Training und die Vorhersage mit zwei Netzwerken, wie es in früheren Arbeiten durchgeführt wurde. Die Architektur besteht aus einem ResNet-50 Feature Extractor, der von den Zweigen für semantische Segmentierung und instanzbasierte Segmentierung geteilt wird. Für die instanzbasierte Segmentierung wird eine Architektur vom Typ Mask R-CNN verwendet, während der Zweig für semantische Segmentierung mit einem Pyramid Pooling Modul erweitert wird. Die Ergebnisse dieser Methode wurden an den COCO und Mapillary Joint Recognition Challenge 2018 eingereicht. Unser Ansatz erreicht einen PQ-Wert von 17,6 auf dem Mapillary Vistas Validierungsdatensatz und 27,2 auf dem COCO test-dev Datensatz.