SegNet: Eine tiefe Faltungskodierer-De kodierer-Architektur für Bildsegmentierung

Wir präsentieren eine neuartige und praktische Architektur eines tiefen vollständig konvolutionellen neuronalen Netzes für die semantische Pixel-segmentierung, welche als SegNet bezeichnet wird. Dieser zentrale, trainierbare Segmentierungsmechanismus besteht aus einem Encoder-Netzwerk, einem entsprechenden Decoder-Netzwerk und einer Schicht zur pixelweisen Klassifikation. Die Architektur des Encoder-Netzwerks ist topologisch identisch zu den 13 konvolutionellen Schichten des VGG16-Netzwerks. Die Aufgabe des Decoder-Netzwerks besteht darin, die niedrig aufgelösten Featuremaps des Encoders auf die volle Eingabeauflösung zu mappen, um eine pixelweise Klassifikation durchzuführen. Die Neuartigkeit von SegNet liegt in der Art und Weise, wie der Decoder seine niedrig aufgelöste Eingabefeaturemap vergrößert (upsamples). Genauer gesagt verwendet der Decoder die Pooling-Indizes, die im Max-Pooling-Schritt des entsprechenden Encoders berechnet werden, um eine nichtlineare Vergrößerung durchzuführen. Dies eliminiert das Bedürfnis, das Vergrößerungsverfahren zu lernen. Die vergrößerten Maps sind dünn besetzt (sparse) und werden dann mit trainierbaren Filtern konvolviert, um dichte Featuremaps zu erzeugen.Wir vergleichen unsere vorgeschlagene Architektur mit dem weit verbreiteten Fully Convolutional Network (FCN) sowie mit den bekannten DeepLab-LargeFOV und DeconvNet-Architekturen. Dieser Vergleich zeigt das Speicher-vs.-Genauigkeit-Kompromiss, das bei der Erreichung guter Segmentationsleistung berücksichtigt werden muss.SegNet wurde hauptsächlich durch Anwendungen im Bereich der Szenenanalyse motiviert. Daher ist es sowohl in Bezug auf Speicherverbrauch als auch Rechenzeit während der Inferenz effizient gestaltet. Es weist auch erheblich weniger trainierbare Parameter auf als andere wettbewerbsfähige Architekturen. Wir haben außerdem einen kontrollierten Benchmark von SegNet und anderen Architekturen sowohl bei Straßenszenen als auch bei Indoor-Szenensegmentierungsaufgaben des SUN RGB-D-Datensatzes durchgeführt. Wir zeigen, dass SegNet gute Leistung mit wettbewerbsfähigem Inferenzzeitbedarf bietet und im Vergleich zu anderen Architekturen speicher-effizientere Inferenz ermöglicht. Zudem stellen wir eine Caffe-Implementierung von SegNet sowie eine Web-Demo unter http://mi.eng.cam.ac.uk/projects/segnet/ zur Verfügung.