LiteSeg: Ein neuartiges leichten ConvNet für die semantische Segmentierung

Die semantische Bildsegmentierung spielt eine entscheidende Rolle in zahlreichen Anwendungen der Bildverarbeitung, darunter autonome Fahrzeuge und medizinische Bildanalyse. Die meisten bisherigen Ansätze konzentrieren sich auf die Verbesserung der Genauigkeit, wobei die Recheneffizienz nur wenig Berücksichtigung findet. In diesem Artikel stellen wir LiteSeg vor, eine leichtgewichtige Architektur für die semantische Bildsegmentierung. In dieser Arbeit erforschen wir eine neuartige, tiefere Variante des Atrous Spatial Pyramid Pooling-Moduls (ASPP) und integrieren sowohl kurze als auch lange Residualverbindungen sowie depthwise separable Convolutionen, was zu einem schnelleren und effizienteren Modell führt. Die LiteSeg-Architektur wird mit mehreren Backbone-Netzwerken – darunter Darknet19, MobileNet und ShuffleNet – evaluiert, um verschiedene Kompromisse zwischen Genauigkeit und rechnerischem Aufwand zu ermöglichen. Das vorgeschlagene Modell LiteSeg erreicht mit MobileNetV2 als Backbone auf dem Cityscapes-Datensatz eine mittlere Intersection-over-Union-Genauigkeit von 67,81 % bei einer Geschwindigkeit von 161 Bildern pro Sekunde bei einer Auflösung von $640 \times 360$.