P$^{2}$Net: Patch-Match und Ebene-Regularisierung für die überwachungsfreie Tiefenschätzung im Innenraum

Diese Arbeit befasst sich mit der unsupervisierten Tiefenschätzung in Innenräumen. Dieses Problem ist äußerst herausfordernd, da diese Szenen große Bereiche ohne Texturen aufweisen. Solche Bereiche können den Optimierungsprozess in den üblicherweise für Außenbereiche entwickelten unsupervisierten Tiefenschätzungsfрейmwerken überwältigen. Selbst wenn diese Bereiche maskiert werden, bleibt die Leistung unzureichend. In dieser Arbeit argumentieren wir, dass die schlechte Leistung auf nicht diskriminative punktbasierte Matching-Verfahren zurückzuführen ist. Dementsprechend stellen wir P$^2$Net vor. Zunächst extrahieren wir Punkte mit großen lokalen Gradienten und verwenden jeweils um diese Punkte zentrierte Patch-Regionen als deren Repräsentation. Anschließend definieren wir eine Multiview-Konsistenzverlustfunktion über diese Patch-Regionen. Diese Operation verbessert die Robustheit des Netzwerktrainings erheblich. Darüber hinaus berücksichtigen wir, dass texturearme Bereiche in Innenräumen (z. B. Wände, Böden, Decken usw.) oft ebenenartige Strukturen aufweisen, und schlagen daher vor, Superpixel als ebene Vorwissen zu nutzen. Wir zwingen die vorhergesagte Tiefe, innerhalb jedes Superpixels gut durch eine Ebene angepasst zu sein. Ausführliche Experimente auf den Datensätzen NYUv2 und ScanNet zeigen, dass unser P$^2$Net bestehende Ansätze deutlich übertrifft. Der Quellcode ist unter \url{https://github.com/svip-lab/Indoor-SfMLearner} verfügbar.