SNE-RoadSeg: Einbeziehung von Oberflächennormaleninformationen in die semantische Segmentierung zur genauen Freiflächen-Detektion

Die Freiflächen-Erkennung ist eine zentrale Komponente der visuellen Wahrnehmung für autonome Fahrzeuge. Die jüngsten Fortschritte bei datenfusionierenden convolutionalen neuronalen Netzen (CNNs) haben die semantische Segmentierung fahrbare Szenen erheblich verbessert. Freiflächen können als Bodenebene aufgefasst werden, auf der die Punkte ähnliche Oberflächen-Normalen aufweisen. Daher führen wir in diesem Beitrag zunächst ein neuartiges Modul namens Surface Normal Estimator (SNE) ein, das mit hoher Genauigkeit und Effizienz Oberflächen-Normaleninformationen aus dichten Tiefen- oder Disparitätsbildern ableiten kann. Darüber hinaus stellen wir eine datenfusionierende CNN-Architektur vor, die als RoadSeg bezeichnet wird und Merkmale sowohl aus RGB-Bildern als auch aus den abgeleiteten Oberflächen-Normaleninformationen extrahiert und fusioniert, um eine präzise Freiflächen-Erkennung zu ermöglichen. Im Interesse der Forschung veröffentlichen wir zudem einen großskaligen, synthetischen Datensatz für die Freiflächen-Erkennung namens Ready-to-Drive (R2D) Road Dataset, der unter unterschiedlichen Beleuchtungs- und Wetterbedingungen gesammelt wurde. Die experimentellen Ergebnisse zeigen, dass unser vorgeschlagenes SNE-Modul alle aktuellen state-of-the-art-CNNs für die Freiflächen-Erkennung verbessert und dass unser SNE-RoadSeg die bestmögliche Gesamtleistung auf verschiedenen Datensätzen erzielt.