Echtzeit-Fusionsnetzwerk für RGB-D-Semantische Segmentierung mit Einbeziehung der Erkennung unerwarteter Hindernisse für Straßenfahr-Bilder

Die semantische Segmentierung hat aufgrund des Erfolgs tiefer konvolutioneller neuronalen Netze erhebliche Fortschritte gemacht. Angesichts der Anforderungen autonomer Fahrzeuge ist die Echtzeit-semantische Segmentierung in den letzten Jahren zu einem Forschungsschwerpunkt geworden. Dennoch werden nur wenige Studien zu Echtzeit-Verfahren zur Fusion von RGB- und Tiefeninformation (RGB-D) durchgeführt, obwohl Tiefeninformation heutzutage leicht verfügbar ist. In diesem Beitrag stellen wir ein Echtzeit-Fusions-Segmentierungsnetzwerk namens RFNet vor, das komplementäre, quermodale Informationen effektiv nutzt. Aufbauend auf einer effizienten Netzarchitektur ist RFNet in der Lage, schnell zu arbeiten und damit Anwendungen in autonomen Fahrzeugen zu erfüllen. Durch die Verwendung von Multi-Dataset-Training wird die Erkennung unerwarteter kleiner Hindernisse verbessert, was die erkannten Klassen erweitert und die Fähigkeit zur Bewältigung unvorhergesehener Gefahren in der realen Welt stärkt. Eine umfassende Reihe von Experimenten belegt die Wirksamkeit unseres Ansatzes. Auf dem Cityscapes-Datensatz übertrifft unsere Methode die bisherigen State-of-the-Art-Verfahren in Bezug auf Genauigkeit und erreicht eine Inferenzgeschwindigkeit von 22 Hz bei der vollen Auflösung von 2048×1024 – wodurch sie die meisten bestehenden RGB-D-Netze übertrifft.