Waterfall Atrous Spatial Pooling Architektur für eine effiziente semantische Segmentierung

Wir schlagen eine neue, effiziente Architektur für die semantische Segmentierung vor, die auf einer „Waterfall“-Atrous-Spatial-Pooling-Architektur basiert und eine erhebliche Steigerung der Genauigkeit erzielt, während gleichzeitig die Anzahl der Netzwerkparameter und der Speicherbedarf reduziert werden. Die vorgeschlagene Waterfall-Architektur nutzt die Effizienz des progressiven Filterns in einer Kaskadenarchitektur aus, während sie gleichzeitig Multiskalen-Felder der Sicht beibehält, die mit solchen von Spatial-Pyramiden-Konfigurationen vergleichbar sind. Zudem beruht unsere Methode nicht auf einer Nachbearbeitungsstufe mittels Conditional Random Fields, was die Komplexität weiter verringert und die benötigte Trainingszeit reduziert. Wir zeigen, dass die Waterfall-Approach mit einem ResNet-Backbone eine robuste und effiziente Architektur für die semantische Segmentierung darstellt und state-of-the-art-Ergebnisse auf dem Pascal VOC-Datensatz sowie dem Cityscapes-Datensatz erzielt, wobei die Anzahl der Parameter signifikant reduziert wird.