vor 5 Monaten

Tiefenschätzung ohne Sensoren: Strukturen nutzen für das unüberwachte Lernen aus monokularen Videos

Casser, Vincent ; Pirk, Soeren ; Mahjourian, Reza ; Angelova, Anelia

Abstract

Das Lernen der Vorhersage von Szenentiefen aus RGB-Eingaben ist eine herausfordernde Aufgabe sowohl für die Indoor- als auch für die Outdoor-Roboter-Navigation. In dieser Arbeit befassen wir uns mit dem unüberwachten Lernen von Szenentiefen und Roboter-Ego-Bewegung, wobei die Überwachung durch einokulare Videos bereitgestellt wird, da Kameras das günstigste, am wenigsten einschränkende und weit verbreitetste Sensorik im Bereich der Robotik sind.Frühere Arbeiten im Bereich des unüberwachten Bild-zu-Tiefe-Lernens haben starke Baseline-Methoden in diesem Bereich etabliert. Wir schlagen einen neuen Ansatz vor, der bessere Ergebnisse erzielt, bewegte Objekte modellieren kann und über Datenbereiche hinweg transferiert, z.B. von Outdoor- zu Indoor-Szenen. Das Kernkonzept besteht darin, geometrische Struktur in den Lernprozess einzuführen, indem die Szene und einzelne Objekte modelliert werden; Kamera-Ego-Bewegungen und Objektbewegungen werden aus einokularen Videos als Eingabe gelernt. Darüber hinaus wird eine Online-Verfeinerungsmethode eingeführt, um das Lernen flugs an unbekannte Domains anzupassen.Der vorgeschlagene Ansatz übertrifft alle aktuellen Methoden, einschließlich solcher, die Bewegung z.B. durch gelernten Fluss (flow) behandeln. Unsere Ergebnisse sind in der Qualität vergleichbar mit denen von Methoden, die Stereo-Überwachung verwendet haben, und verbessern die Tiefenvorhersage signifikant in Szenen und Datensätzen mit viel Objektbewegung. Der Ansatz ist praktisch relevant, da er den Transfer zwischen Umgebungen ermöglicht: Modelle, die auf Daten trainiert wurden, die für die Roboter-Navigation in städtischen Szenarien gesammelt wurden, können auf Indoor-Navigations-Szenarien angewendet werden. Der Quellcode zu diesem Artikel ist unter https://sites.google.com/view/struct2depth zu finden.