Tiefes Ordinales Regressionsnetzwerk für die Monoaugen-Tiefenschätzung

Die monokulare Tiefenschätzung, die eine entscheidende Rolle bei der Interpretation der 3D-Szenengeometrie spielt, ist ein schlecht gestelltes Problem. Neuartige Methoden haben durch die Auswertung von bildbasierten Informationen und hierarchischen Merkmalen aus tiefen Faltungsneuronalen Netzen (DCNNs) erhebliche Verbesserungen erzielt. Diese Methoden modellieren die Tiefenschätzung als Regressionsproblem und trainieren die Regressionsnetze, indem sie den mittleren quadratischen Fehler minimieren, was zu langsamer Konvergenz und unzufriedenstellenden lokalen Lösungen führt. Zudem verwenden bestehende Tiefenschätznetze wiederholte räumliche Pooling-Operationen, was zu unerwünschten niedrig aufgelösten Merkmalskarten führt. Um diese Probleme zu beseitigen oder zumindest stark zu reduzieren, führen wir eine Strategie zur Abstandsvergrößerung bei der Diskretisierung (SID) ein, um die Tiefe zu diskretisieren und das Lernen des Tiefenschätzungsnetworks als ordinale Regression umzuformulieren. Durch das Training des Netzwerks mit einem ordinalen Regressionsverlust erreicht unsere Methode eine viel höhere Genauigkeit und \dd{schnellere Konvergenz gleichzeitig}. Darüber hinaus setzen wir eine mehrskalige Netzstruktur ein, die unnötiges räumliches Pooling vermeidet und gleichzeitig mehrskalige Informationen erfasst.Die in diesem Artikel beschriebene Methode erzielt Stand-der-Technik-Ergebnisse auf vier anspruchsvollen Benchmarks, nämlich KITTI [17], ScanNet [9], Make3D [50] und NYU Depth v2 [42], und gewann den 1. Preis beim Robust Vision Challenge 2018. Der Quellcode ist unter folgender URL verfügbar: https://github.com/hufu6371/DORN.