Monokulare Tiefenschätzung unter Nutzung unüberwachter Trinocular Annahmen lernen

Die Gewinnung genauer Tiefenmessungen aus einem einzelnen Bild stellt eine faszinierende Lösung für die 3D-Sensing dar. CNNs (Convolutional Neural Networks) haben in diesem Bereich erhebliche Verbesserungen gebracht, und aktuelle Trends haben die Notwendigkeit von Ground-Truth-Labels durch geometriegeführte Bildrekonstruktionsignale ersetzt, die unsupervisiertes Training ermöglichen. Derzeit basieren die fortschrittlichsten Techniken auf mit einem binokularen Stereoaufbau erworbenen Bildern, um die Umkehrtiefe (d.h. Disparität) gemäß dem oben beschriebenen Überwachungsprinzip vorherzusagen. Diese Methoden leiden jedoch an bekannten Problemen in der Nähe von Okklusionen, am linken Bildrand usw., die vom Stereoaufbau herrühren. Daher adressieren wir in dieser Arbeit diese Probleme, indem wir den Trainingsprozess in ein trinokulares Gebiet verlagern. Unter der Annahme, dass das zentrale Bild als Referenz dient, trainieren wir ein CNN (Convolutional Neural Network), um Disparitätsdarstellungen zu erzeugen, indem es dieses Bild mit Frames auf seiner linken und rechten Seite kombiniert. Diese Strategie ermöglicht es, Tiefenkarten zu erhalten, die nicht von typischen Stereoartefakten beeinträchtigt sind. Darüber hinaus sind trinokulare Datensätze selten verfügbar; daher führen wir ein neues verzahntes Trainingsverfahren ein, das es ermöglicht, die trinokulare Annahme unter Verwendung der aktuellen binokularen Datensätze zu erzwingen. Ausgiebige experimentelle Ergebnisse am KITTI-Datensatz bestätigen, dass unser Ansatz den Stand der Technik bei unsupervisierter monokularer Tiefenschätzung über binokulare Stereopaares übertreffen kann sowie alle bekannten Methoden, die auf anderen Hinweisen basieren.