HyperAIHyperAI
vor 2 Monaten

Zur Verteidigung der vortrainierten ImageNet-Architekturen für die Echtzeit-Semantische Segmentierung von Straßenaufnahmen

Marin Oršić; Ivan Krešo; Petra Bevandić; Siniša Šegvić
Zur Verteidigung der vortrainierten ImageNet-Architekturen für die Echtzeit-Semantische Segmentierung von Straßenaufnahmen
Abstract

Der kürzliche Erfolg von Ansätzen zur semantischen Segmentierung bei anspruchsvollen Datensätzen für Straßenfahrzeuge hat das Interesse in vielen verwandten Anwendungsbereichen geweckt. Viele dieser Anwendungen beinhalten Echtzeitvorhersagen auf mobilen Plattformen wie Autos, Drohnen und verschiedenen Arten von Robotern. Die Echtzeitumgebung ist aufgrund der außergewöhnlichen Rechenaufwandskomplexität herausfordernd. Viele frühere Arbeiten bewältigen diese Herausforderung durch maßgeschneiderte leichte Architekturen, die den Rechenaufwand reduzieren, indem sie die Tiefe, Breite und Schichtkapazität im Vergleich zu allgemeinen Architekturen verringern. Wir schlagen einen alternativen Ansatz vor, der eine erheblich bessere Leistung über einen breiten Bereich von Rechenbudgets erreicht. Zunächst basieren wir auf einer leichten allgemeinen Architektur als Haupterkennungsmotor. Dann nutzen wir leichte Aufsampling mit lateralen Verbindungen als die kosteneffektivste Lösung, um die Vorhersageauflösung wiederherzustellen. Schließlich schlagen wir vor, das Empfangsfeld durch Fusions von geteilten Merkmalen in mehreren Auflösungen auf innovative Weise zu vergrößern. Experimente mit mehreren Datensätzen für Straßenfahrzeuge zeigen einen erheblichen Vorteil des vorgeschlagenen Ansatzes, sei es mit ImageNet-vorgebildeten Parametern oder wenn wir von Grund auf neu lernen. Unsere Testeinreichung für Cityscapes unter dem Titel „SwiftNetRN-18“ liefert 75,5 % MIoU (Mean Intersection over Union) und erreicht 39,9 Hz bei Bildern mit einer Auflösung von 1024x2048 Pixeln auf einem GTX1080Ti-Grafikkarten.