Nahtlose Szene Segmentierung

In dieser Arbeit stellen wir eine neuartige, auf CNN basierende Architektur vor, die von Anfang bis Ende trainiert werden kann, um nahtlose Szensegmentierungsergebnisse zu liefern. Unser Ziel ist es, durch ein panoptisches Ausgabeformat konsistente semantische Segmentierungs- und Detektionsergebnisse vorherzusagen, wobei wir über die einfache Kombination unabhängig trainierter Segmentierungs- und Detektionsmodelle hinausgehen. Die vorgeschlagene Architektur nutzt einen neuen Segmentierungskopf, der nahtlos mehrskalige Merkmale, die von einem Feature Pyramid Network generiert werden, mit kontextuellen Informationen verbindet, die durch ein leichtgewichtiges DeepLab-ähnliches Modul übermittelt werden. Als zusätzliche Leistung bewerten wir das panoptische Metrik und schlagen eine Alternative vor, die deren Einschränkungen bei der Bewertung nicht-instanzbasierter Kategorien überwindet. Unsere vorgeschlagene Netzwerkarchitektur erzielt Stand-of-the-Art-Ergebnisse auf drei anspruchsvollen Straßendatensätzen, nämlich Cityscapes, Indian Driving Dataset und Mapillary Vistas.