HyperAIHyperAI
vor 2 Monaten

Vollauflösende Residuale Netzwerke für die semantische Segmentierung in Straßenszenen

Tobias Pohlen; Alexander Hermans; Markus Mathias; Bastian Leibe
Vollauflösende Residuale Netzwerke für die semantische Segmentierung in Straßenszenen
Abstract

Semantische Bildsegmentierung ist ein wesentlicher Bestandteil moderner autonomen Fahrzeugsysteme, da eine genaue Analyse der umliegenden Szene für die Navigation und Aktionenplanung entscheidend ist. Aktuelle state-of-the-art Ansätze in der semantischen Bildsegmentierung basieren auf vorgefertigten Netzen, die ursprünglich zur Klassifizierung von Bildern insgesamt entwickelt wurden. Obwohl diese Netze außergewöhnliche Erkennungsleistungen (d.h., was sichtbar ist?) aufweisen, fehlt ihnen die Lokalisationsgenauigkeit (d.h., wo befindet sich etwas genau?). Daher müssen zusätzliche Verarbeitungsschritte durchgeführt werden, um Segmentierungsmasken mit Pixelgenauigkeit in der vollen Bildauflösung zu erhalten. Um dieses Problem zu lindern, schlagen wir eine neuartige ResNet-ähnliche Architektur vor, die sowohl starke Lokalisierungs- als auch Erkennungsleistungen aufweist. Wir kombinieren multiskaligen Kontext mit Pixelgenauigkeit durch den Einsatz zweier Verarbeitungsströme in unserem Netzwerk: Ein Strom verarbeitet Informationen in der vollen Bildauflösung, was eine präzise Anpassung an Segmentgrenzen ermöglicht. Der andere Strom durchläuft eine Reihe von Pooling-Operationen, um robuste Merkmale für die Erkennung zu gewinnen. Die beiden Ströme werden an der vollen Bildauflösung durch Residuen verbunden. Ohne zusätzliche Verarbeitungsschritte und ohne Vorabtraining erreicht unser Ansatz einen Intersection-over-Union-Wert von 71,8 % im Cityscapes-Datensatz.

Vollauflösende Residuale Netzwerke für die semantische Segmentierung in Straßenszenen | Neueste Forschungsarbeiten | HyperAI