vor 16 Tagen

P3Depth: Tiefenschätzung mit einer monokularen Tiefe unter Verwendung eines stückweisen Planaritätsprioris

Vaishakh Patil, Christos Sakaridis, Alexander Liniger, Luc Van Gool

Abstract

Die monokulare Tiefenschätzung ist entscheidend für die Szenenverstehbarkeit und nachgeschaltete Aufgaben. Wir konzentrieren uns auf den überwachten Ansatz, bei dem nur während des Trainings Tiefenwerte im Ground Truth verfügbar sind. Auf der Grundlage des Wissens über die hohe Regularität realer 3D-Szenen schlagen wir eine Methode vor, die lernt, gezielt Informationen von koplanaren Pixeln zu nutzen, um die geschätzte Tiefe zu verbessern. Insbesondere führen wir eine stückweise Planaritätsprior vor, die besagt, dass für jeden Pixel ein Ausgangspixel existiert, das mit ihm dieselbe ebene 3D-Oberfläche teilt. Angeregt durch diese Prior, entwerfen wir ein Netzwerk mit zwei Ausgabeköpfen. Der erste Kopf liefert pixelweise Ebenenparameter, während der zweite eine dichte Verschiebungsvektorfeld-Ausgabe erzeugt, das die Positionen der Ausgangspixel identifiziert. Die Ebenenparameter dieser Ausgangspixel werden anschließend verwendet, um die Tiefe an jeder Position vorherzusagen. Die resultierende Vorhersage wird adaptiv mit der ursprünglichen Vorhersage des ersten Kopfes über ein gelerntes Vertrauensmaß fusioniert, um mögliche Abweichungen von der exakten lokalen Planarität zu berücksichtigen. Die gesamte Architektur wird end-to-end trainiert, dank der Differenzierbarkeit der vorgeschlagenen Module, und lernt, regelmäßige Tiefenkarten mit scharfen Kanten an Sichtbarkeitsrändern vorherzusagen. Eine umfassende Evaluation zeigt, dass unsere Methode den neuen Stand der Technik in der überwachten monokularen Tiefenschätzung etabliert und bestehende Ansätze sowohl auf NYU Depth-v2 als auch auf dem Garg-Split von KITTI übertrifft. Unsere Methode erzeugt Tiefenkarten, die plausible 3D-Rekonstruktionen der Eingabeszenen ermöglichen. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/SysCV/P3Depth