HyperAIHyperAI
vor 2 Monaten

Tiefe Doppelaufgelöste Netze für die Echtzeit- und genaue semantische Segmentierung von Straßenszenen

Hong, Yuanduo ; Pan, Huihui ; Sun, Weichao ; Jia, Yisong
Tiefe Doppelaufgelöste Netze für die Echtzeit- und genaue semantische Segmentierung von Straßenszenen
Abstract

Semantische Segmentierung ist eine Schlüsseltechnologie für autonome Fahrzeuge, um die umliegende Szene zu verstehen. Die überzeugenden Leistungen moderner Modelle gehen oft auf Kosten hoher Rechenlasten und langer Inferenzzeiten, was für autonomes Fahren unakzeptabel ist. Durch den Einsatz leichtgewichtiger Architekturen (Encoder-Decoder oder zweipfadig) oder das Verarbeiten von Niedrigauflösungsbildern erreichen aktuelle Methoden sehr schnelle Szenenanalyse, teilweise sogar mit mehr als 100 FPS auf einer einzelnen 1080Ti-GPU. Dennoch besteht zwischen diesen Echtzeitmethoden und Modellen mit dilatierter Backbone-Architektur ein erheblicher Leistungsunterschied. Um dieses Problem anzugehen, schlugen wir eine Familie effizienter Backbones vor, die speziell für die Echtzeit-Semantische Segmentierung entwickelt wurden. Die vorgeschlagenen tiefen Dual-Resolution-Netzwerke (DDRNet) bestehen aus zwei tiefen Zweigen, zwischen denen mehrere bilaterale Fusionen durchgeführt werden. Zudem haben wir einen neuen Kontextinformationsextraktor namens Deep Aggregation Pyramid Pooling Module (DAPPM) entwickelt, um effektive Rezeptive Felder zu vergrößern und multiskalige Kontexte basierend auf niedrigauflösenden Merkmalskarten zu fusionieren. Unsere Methode erreicht einen neuen Stand der Technik im Spannungsfeld zwischen Genauigkeit und Geschwindigkeit sowohl im Cityscapes- als auch im CamVid-Datensatz. Insbesondere liefert DDRNet-23-slim auf einer einzelnen 2080Ti-GPU 77,4 % mIoU bei 102 FPS im Cityscapes-Testdatensatz und 74,7 % mIoU bei 230 FPS im CamVid-Testdatensatz. Mit weit verbreiteter Testaugmentation übertrifft unsere Methode die meisten Stand der Technik-modelle und benötigt deutlich weniger Berechnungen. Der Quellcode und die trainierten Modelle sind online verfügbar.

Tiefe Doppelaufgelöste Netze für die Echtzeit- und genaue semantische Segmentierung von Straßenszenen | Neueste Forschungsarbeiten | HyperAI