Ein Zwei-Ströme-Netzwerk zur Schätzung feingranularer Tiefenkarten aus einzelnen RGB-Bildern

Die Schätzung von Tiefeninformation aus einem einzelnen RGB-Bild ist ein schlecht gestelltes und inhärent ambiges Problem. Die neuesten Methoden des tiefen Lernens können heute genaue 2D-Tiefenkarten erstellen, aber wenn diese Karten in den 3D-Raum projiziert werden, fehlen lokale Details und sie sind oft stark verzerrt. Wir schlagen ein schnell trainierbares, zweistromiges CNN (Convolutional Neural Network) vor, das sowohl Tiefen als auch Tiefengradienten vorhersagt, die dann zu einer genauen und detaillierten Tiefenkarte zusammengeführt werden. Zudem definieren wir einen neuen Mengenverlust über mehrere Bilder; durch die Regularisierung der Schätzungen zwischen einem gemeinsamen Satz von Bildern ist das Netzwerk weniger anfällig für Überanpassung und erreicht eine höhere Genauigkeit als vergleichbare Methoden. Experimente mit dem NYU Depth v2 Datensatz zeigen, dass unsere Tiefenschätzungen mit den besten aktuellen Ansätzen konkurrieren können und zu verlässlichen 3D-Projektionen führen.