BiSeNet: Bilaterales Segmentierungsnetzwerk für Echtzeit-Semantische Segmentierung

Semantische Segmentierung erfordert sowohl reichhaltige räumliche Informationen als auch einen ausreichend großen Rezeptivbereich. Moderne Ansätze opfern jedoch in der Regel die räumliche Auflösung, um eine Echtzeit-Inferenzgeschwindigkeit zu erreichen, was zu einer schlechten Leistung führt. In dieser Arbeit adressieren wir dieses Dilemma mit einem neuen bilateralen Segmentierungsnetzwerk (Bilateral Segmentation Network, BiSeNet). Zunächst entwickeln wir einen Spatial Path mit kleinem Stride, um die räumlichen Informationen zu bewahren und hochauflösende Merkmale zu generieren. Gleichzeitig wird ein Context Path mit einer schnellen Downsampling-Strategie eingesetzt, um einen ausreichenden Rezeptivbereich zu erhalten. Über den beiden Pfaden führen wir ein neues Feature Fusion Modul ein, das die Merkmale effizient kombiniert. Die vorgeschlagene Architektur findet das richtige Gleichgewicht zwischen Geschwindigkeit und Segmentierungsleistung auf den Datensätzen Cityscapes, CamVid und COCO-Stuff. Insbesondere erreichen wir bei einer Eingabe von 2048x1024 68,4 % Mean IOU auf dem Testdatensatz von Cityscapes mit einer Geschwindigkeit von 105 FPS auf einer NVIDIA Titan XP-Karte, was deutlich schneller ist als bestehende Methoden mit vergleichbarer Leistung.