BiSeNet V2: Bilaterales Netzwerk mit geführter Aggregation für Echtzeit-Semantische Segmentierung

Die niedrigstufigen Details und die hochstufigen Semantiken sind beide für die semantische Segmentierung von entscheidender Bedeutung. Um die Modellinferenz zu beschleunigen, opfern jedoch aktuelle Ansätze fast ausnahmslos die niedrigstufigen Details, was zu einer erheblichen Genauigkeitsminderung führt. Wir schlagen vor, diese räumlichen Details und kategorischen Semantiken getrennt zu behandeln, um sowohl hohe Genauigkeit als auch hohe Effizienz für die Echtzeit-Semantiksegmentierung zu erreichen. Dazu präsentieren wir eine effiziente und wirksame Architektur, die ein gutes Kompromiss zwischen Geschwindigkeit und Genauigkeit bietet und als Bilateral Segmentation Network (BiSeNet V2) bezeichnet wird. Diese Architektur umfasst: (i) einen Detailzweig mit breiten Kanälen und flachen Schichten, der niedrigstufige Details erfasst und eine hochauflösende Merkmalsdarstellung generiert; (ii) einen Semantikzweig mit schmalen Kanälen und tiefen Schichten, der hochstufige semantische Kontextinformationen gewinnt. Der Semantikzweig ist aufgrund reduzierter Kanalkapazität und einer schnellen Downsampling-Strategie leichtgewichtig. Zudem entwickeln wir eine geführte Aggregations-Schicht, um die gegenseitige Verbindung beider Merkmalsdarstellungen zu stärken und sie zu fusionieren. Darüber hinaus wird eine Booster-Trainingsstrategie entworfen, die die Segmentierungsgenauigkeit verbessert, ohne zusätzlichen Inferenzaufwand mit sich zu bringen. Umfangreiche quantitative und qualitative Bewertungen zeigen, dass die vorgeschlagene Architektur gegen mehrere aktuelle State-of-the-Art-Methoden für Echtzeit-Semantiksegmentierung gut abschneidet. Insbesondere erreichen wir für eine Eingabe mit 2.048×1.024 Pixeln auf dem Cityscapes-Testset eine mittlere IoU von 72,6 % bei einer Geschwindigkeit von 156 FPS auf einer einzigen NVIDIA GeForce GTX 1080 Ti-Karte – dies ist deutlich schneller als bestehende Verfahren, wobei gleichzeitig eine bessere Segmentierungsgenauigkeit erzielt wird.