ERFNet: Efficient Residual Factorized ConvNet für die Echtzeit-Semantische Segmentierung
Semantische Segmentierung ist eine anspruchsvolle Aufgabe, die die meisten Wahrnehmungsbedürfnisse intelligenter Fahrzeuge (Intelligent Vehicles, IV) einheitlich adressiert. Deep Neural Networks erweisen sich bei dieser Aufgabe als besonders geeignet, da sie end-to-end trainiert werden können, um mehrere Objekt-Kategorien in einem Bild auf Pixel-Ebene präzise zu klassifizieren. Dennoch fehlt es den aktuellen Ansätzen zur semantischen Segmentierung derzeit an einer optimalen Balance zwischen hoher Genauigkeit und geringem Ressourcenverbrauch, was ihre Anwendung in realen Fahrzeugen einschränkt. In diesem Paper stellen wir eine tiefe Architektur vor, die in Echtzeit arbeitet und gleichzeitig eine genaue semantische Segmentierung ermöglicht. Der Kern unserer Architektur ist eine neuartige Schicht, die Residual-Verbindungen und faktorisierte Faltungen nutzt, um gleichzeitig Effizienz zu gewährleisten und eine herausragende Genauigkeit zu bewahren. Unser Ansatz erreicht eine Geschwindigkeit von über 83 FPS auf einer einzelnen Titan X und 7 FPS auf einem Jetson TX1 (eingebettete GPU). Eine umfassende Reihe von Experimenten am öffentlich verfügbaren Cityscapes-Datensatz zeigt, dass unser System eine Genauigkeit erreicht, die mit dem Stand der Technik vergleichbar ist, gleichzeitig aber um Größenordnungen schneller berechnet wird als andere Architekturen, die ähnliche Präzision erzielen. Die resultierende Kompromisslösung macht unser Modell zu einer idealen Lösung für die Szenenverstehens in IV-Anwendungen. Der Quellcode ist öffentlich verfügbar unter: https://github.com/Eromera/erfnet