vor 2 Monaten

Über Tiefenlernverfahren zur Verbesserung der monokularen Tiefenschätzung für autonome Navigation

Raul de Queiroz Mendes; Eduardo Godinho Ribeiro; Nicolas dos Santos Rosa; Valdir Grassi Jr

Abstract

Die Schätzung der Tiefeninformation von Bildern ist ein grundlegendes inverses Problem im Bereich der Computer Vision, da die Tiefeninformation aus 2D-Bildern gewonnen wird, die aus unendlich vielen Möglichkeiten beobachteter realer Szenen generiert werden können. Dank des Fortschritts von Faltungsneuronalen Netzen (CNNs), die strukturelle Merkmale und räumliche Bildinformationen erforschen, wird die Tiefenschätzung aus einem einzelnen Bild (Single Image Depth Estimation, SIDE) oft in wissenschaftlichen und technologischen Innovationen hervorgehoben. Dieses Konzept bietet Vorteile im Zusammenhang mit seinen geringen Implementierungskosten und seiner Robustheit gegenüber Umgebungsbedingungen. Im Kontext autonomer Fahrzeuge optimieren moderne CNNs die SIDE-Aufgabe durch die Erstellung hochwertiger Tiefenkarten, die während des autonomen Navigationsprozesses an verschiedenen Orten essentiell sind. Allerdings werden solche Netze in der Regel durch dünn besetzte und verrauschte Tiefendaten überwacht, die aus Lichterkundung und -messung (Light Detection and Ranging, LiDAR)-Laserabtastungen stammen, und sie erfordern hohe Rechenleistung, was wiederum leistungsstarke Grafikprozessoren (GPUs) voraussetzt. Daher schlagen wir eine neue leichte und schnelle überwachte CNN-Architektur vor, kombiniert mit neuartigen Merkmalsextraktionsmodellen, die für die reale autonome Navigation entwickelt wurden. Zudem führen wir ein effizientes Modul zur Berechnung von Oberflächennormalen ein, das zusammen mit einer einfachen geometrischen 2.5D-Verlustfunktion verwendet wird, um SIDE-Probleme zu lösen. Wir innovieren ferner durch die Einbeziehung mehrerer Deep-Learning-Techniken wie Dichtungsalgorithmen sowie zusätzlicher semantischer, Oberflächennormal- und Tiefeninformationen zum Trainieren unseres Frameworks. Die in dieser Arbeit vorgestellte Methode konzentriert sich auf robotertechnische Anwendungen in Innen- und Außenumgebungen; ihre Ergebnisse werden anhand der wettbewerbsfähigen und öffentlich zugänglichen NYU Depth V2- und KITTI Depth-Datensätze evaluiert.