HyperAIHyperAI
vor 2 Monaten

Rethinking BiSeNet für Echtzeit-Semantische Segmentierung

Fan, Mingyuan ; Lai, Shenqi ; Huang, Junshi ; Wei, Xiaoming ; Chai, Zhenhua ; Luo, Junfeng ; Wei, Xiaolin
Rethinking BiSeNet für Echtzeit-Semantische Segmentierung
Abstract

BiSeNet hat sich als ein beliebtes Zwei-Stream-Netzwerk für die Echtzeit-Segmentierung bewährt. Allerdings ist das Prinzip des Hinzufügens eines zusätzlichen Pfades zur Kodierung von räumlichen Informationen zeitintensiv, und die aus vorab trainierten Aufgaben wie der Bildklassifizierung übernommenen Backbone-Netze können aufgrund des Mangels an aufgabenspezifischem Design für die Bildsegmentierung ineffizient sein. Um diese Probleme zu lösen, schlagen wir eine neuartige und effiziente Struktur namens Short-Term Dense Concatenate Netzwerk (STDC Netzwerk) vor, bei der strukturelle Redundanzen entfernt werden. Insbesondere reduzieren wir die Dimension der Feature Maps schrittweise und verwenden ihre Aggregation zur Bildrepräsentation, was das grundlegende Modul des STDC-Netzwerks bildet. Im Decoder schlagen wir ein Detail-Aggregationsmodul vor, indem wir das Lernen von räumlichen Informationen in den niedrigsten Schichten in einem Einzel-Stream-Ansatz integrieren. Schließlich werden die niedrigsten Schichtfeatures und die tiefen Features fusioniert, um die endgültigen Segmentierungsresultate zu erzeugen. Ausführliche Experimente mit dem Cityscapes-Datensatz und dem CamVid-Datensatz zeigen die Effektivität unserer Methode durch eine vielversprechende Balance zwischen Segmentierungspräzision und Inferenzgeschwindigkeit. Bei Cityscapes erreichen wir 71,9 % mIoU im Testset mit einer Geschwindigkeit von 250,4 FPS auf der NVIDIA GTX 1080Ti, was 45,2 % schneller ist als die neuesten Methoden. Bei der Inferenz auf hochaufgelösten Bildern erreichen wir 76,8 % mIoU bei 97,0 FPS.

Rethinking BiSeNet für Echtzeit-Semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI