ShelfNet für schnelle semantische Segmentierung

In dieser Arbeit stellen wir ShelfNet vor, eine neuartige Architektur für genaue und schnelle semantische Segmentierung. Im Gegensatz zur einheitlichen Encoder-Decoder-Struktur verfügt ShelfNet über mehrere Encoder-Decoder-Zweigpaare mit Übersprungverbindungen auf jeder räumlichen Ebene, was einem Regal mit mehreren Säulen ähnelt. Die regalförmige Struktur kann als Ensemble von mehreren tiefen und flachen Pfaden betrachtet werden, wodurch die Genauigkeit verbessert wird. Durch die Reduzierung der Kanalzahl verringern wir den Rechenaufwand erheblich, während wir gleichzeitig durch diese einzigartige Struktur hohe Genauigkeit erreichen. Darüber hinaus schlagen wir eine Strategie des gemeinsamen Gewichts in den Residualblöcken vor, die die Anzahl der Parameter reduziert, ohne die Leistung zu beeinträchtigen. Verglichen mit beliebten nicht-zeitkritischen Methoden wie PSPNet erreicht unser ShelfNet eine Inferenzgeschwindigkeit, die um das Vierfache höher ist, bei vergleichbarer Genauigkeit auf dem PASCAL VOC-Datensatz. Verglichen mit zeitkritischen Segmentierungsmodellen wie BiSeNet erreicht unser Modell eine höhere Genauigkeit bei vergleichbarer Geschwindigkeit auf dem Cityscapes-Datensatz, was es für anwendungen mit hohen Geschwindigkeitsanforderungen wie die Straßenszenerkennung für autonome Fahrzeuge geeignet macht. Zudem erreicht unsere ShelfNet mit ResNet34 als Backbone 79,0\% mIoU (mean Intersection over Union) auf dem Cityscapes-Datensatz und übertrifft dabei Modelle wie PSPNet und BiSeNet, die größere Backbones wie ResNet101 verwenden. Durch umfangreiche Experimente haben wir die überlegene Leistung von ShelfNet bestätigt. Wir stellen einen Link zur Implementierung bereit: \url{https://github.com/juntang-zhuang/ShelfNet-lw-cityscapes}.