HyperAIHyperAI
vor 2 Monaten

Unüberwachte monokulare Tiefenschätzung mit Link-Rechts-Konsistenz

Clément Godard; Oisin Mac Aodha; Gabriel J. Brostow
Unüberwachte monokulare Tiefenschätzung mit Link-Rechts-Konsistenz
Abstract

Lernbasierte Methoden haben bei der Aufgabenstellung der Tiefenschätzung in Einzelaufnahmen sehr vielversprechende Ergebnisse gezeigt. Die meisten existierenden Ansätze behandeln die Tiefenschätzung jedoch als ein überwachtes Regressionsproblem und benötigen daher große Mengen entsprechender Referenzdaten zur Tiefenschätzung für das Training. Das Aufzeichnen hochwertiger Tiefendaten in verschiedenen Umgebungen ist ein anspruchsvolles Problem. In dieser Arbeit gehen wir über die bestehenden Ansätze hinaus und ersetzen die Verwendung expliziter Tiefendaten während des Trainings durch leichter zu erhaltende binokulare Stereofilmaufnahmen.Wir schlagen ein neues Trainingsziel vor, das es unserem Faltungsneuronalen Netzwerk (Convolutional Neural Network) ermöglicht, die Tiefenschätzung aus Einzelaufnahmen zu lernen, trotz der Abwesenheit von Referenzdaten zur Tiefenschätzung. Indem wir Epipolare Geometrieeinschränkungen nutzen, generieren wir Disparitätsbilder durch das Training unseres Netzwerks mit einem Bildrekonstruktionsverlust (image reconstruction loss). Wir zeigen, dass das Lösen des Problems der Bildrekonstruktion allein zu tiefenbildern von schlechter Qualität führt. Um dieses Problem zu bewältigen, schlagen wir einen neuen Trainingsverlust vor, der Konsistenz zwischen den Disparitäten erzwingt, die im Bezug auf sowohl das linke als auch das rechte Bild produziert werden. Dies führt zu einer verbesserten Leistung und Robustheit im Vergleich zu den bestehenden Ansätzen. Unsere Methode erzielt Stand-of-the-Art-Ergebnisse für die monokulare Tiefenschätzung im KITTI-Fahrzeugdatensatz und übertreffen sogar überwachte Methoden, die mit Referenzdaten zur Tiefenschätzung trainiert wurden.

Unüberwachte monokulare Tiefenschätzung mit Link-Rechts-Konsistenz | Neueste Forschungsarbeiten | HyperAI