Einzelbild-Tiefenschätzung, trainiert durch Tiefeninformation aus Fokusunterschieden

Die Schätzung von Tiefeninformation aus einzelnen RGB-Bildern ist eine grundlegende Aufgabe in der Computer Vision, die am direktsten durch überwachtes Deep Learning gelöst wird. Im Bereich des unüberwachten Lernens von Tiefeninformation aus einem einzelnen RGB-Bild wird die Tiefe nicht explizit angegeben. Bestehende Arbeiten in diesem Bereich verwenden entweder ein Stereo-Paar, ein monokulares Video oder mehrere Ansichten und trainieren ein Tiefenschätzungsnetzwerk unter Verwendung von Verlustfunktionen, die auf Struktur-aus-Bewegung (Structure-from-Motion) basieren. In dieser Arbeit stützen wir uns hingegen auf Tiefeninformationen aus Fokus-Hinweisen. Das Lernen basiert auf einer neuartigen Point-Spread-Funktion (PSF)-Faltungsschicht, die ortsspezifische Kerne anwendet, die sich aus dem Unschärfekreis (Circle-of-Confusion) an jeder Bildposition ergeben. Wir evaluieren unsere Methode an Daten, die aus fünf gängigen Datensätzen für Tiefenschätzung und Lichtfeldbilder abgeleitet sind, und präsentieren Ergebnisse, die den überwachten Methoden auf den KITTI- und Make3D-Datensätzen gleichkommen und unüberwachte Lernansätze übertreffen. Da das Phänomen der Tiefeninformation aus Unscharfe nicht datensatzspezifisch ist, vermuten wir, dass das darauf basierende Lernen weniger stark an den spezifischen Inhalt jedes Datensatzes überanpassen würde. Unsere Experimente zeigen tatsächlich, dass dies der Fall ist: Ein mit unserer Methode trainiertes Schätzmodell liefert bessere Ergebnisse auf anderen Datensätzen als direkt überwachte Methoden.