M4Depth: Monokulare Tiefenschätzung für autonome Fahrzeuge in unbekannten Umgebungen

Die Schätzung der Entfernung zu Objekten ist für autonome Fahrzeuge entscheidend, wenn die Verwendung von Tiefensensoren nicht möglich ist. In solchen Fällen muss die Entfernung aus RGB-Kameras, die am Fahrzeug montiert sind, geschätzt werden – eine anspruchsvolle Aufgabe, insbesondere in natürlichen Außenlandschaften. In diesem Artikel stellen wir eine neue Methode namens M4Depth zur Tiefenschätzung vor. Zunächst etablieren wir eine bijektive Beziehung zwischen der Tiefe und der visuellen Disparität zweier aufeinanderfolgender Bilder und zeigen, wie diese ausgenutzt werden kann, um eine bewegungsinvariante, pixelweise Tiefenschätzung durchzuführen. Anschließend beschreiben wir M4Depth, das auf einer pyramidalen neuronalen Netzarchitektur basiert, bei der jeder Ebene eine Eingabedisparitätskarte durch die Nutzung zweier maßgeschneiderter Kostenvolumen verfeinert wird. Diese Kostenvolumen werden genutzt, um die visuellen räumlich-zeitlichen Einschränkungen durch Bewegung auszunutzen und die Robustheit des Netzwerks gegenüber unterschiedlichen Szenen zu erhöhen. Wir haben unsere Methode sowohl im Test- als auch im Generalisierungsmodus an öffentlichen Datensätzen evaluiert, die synthetische Kamerabewegungen in einer Vielzahl von Außenumgebungen enthalten. Die Ergebnisse zeigen, dass unser Netzwerk die derzeitigen State-of-the-Art-Methoden auf diesen Datensätzen übertrifft und zudem auf einem Standard-Tiefenschätzungsbenchmark gute Leistung erzielt. Der Quellcode unserer Methode ist öffentlich unter https://github.com/michael-fonder/M4Depth verfügbar.