HyperAIHyperAI
vor 4 Monaten

Strukturbewusstes Residuelles Pyramiden-Netzwerk für die monoökulare Tiefenschätzung

Xiaotian Chen; Xuejin Chen; Zheng-Jun Zha
Strukturbewusstes Residuelles Pyramiden-Netzwerk für die monoökulare Tiefenschätzung
Abstract

Die monokulare Tiefenschätzung ist eine wesentliche Aufgabe für die Szeneanalyse. Die zugrunde liegende Struktur von Objekten und Materialien in einer komplexen Szene ist entscheidend für die Wiederherstellung genauer und optisch ansprechender Tiefenkarten. Während globale Strukturen die Szenenlayout bestimmen, spiegeln lokale Strukturen Formdetails wider. Neu entwickelte Ansätze auf der Basis von Faltungsneuronalen Netzen (CNNs) verbessern die Leistung der Tiefenschätzung erheblich. Allerdings berücksichtigen nur wenige dieser Ansätze mehrskalige Strukturen in komplexen Szenen. In diesem Artikel schlagen wir ein strukturbewusstes residuelles Pyramiden Netzwerk (Structure-Aware Residual Pyramid Network, SARPN) vor, um mehrskalige Strukturen für eine genaue Tiefenvorhersage zu nutzen. Wir stellen einen residuellen Pyramiden Decoder (Residual Pyramid Decoder, RPD) vor, der globale Szenenstrukturen in den oberen Ebenen zum Darstellen von Layouts und lokale Strukturen in den unteren Ebenen zur Darstellung von Formdetails ausdrückt. In jeder Ebene schlagen wir residuelle Verfeinerungsmoduln (Residual Refinement Modules, RRM) vor, die residuelle Karten vorhersagen, um feinere Strukturen schrittweise auf der groberen Struktur hinzuzufügen, die in der oberen Ebene vorhergesagt wurde. Um mehrskalige Bildmerkmale vollständig zu nutzen, wird ein adaptives dichtes Merkmalsfusionsmodul (Adaptive Dense Feature Fusion, ADFF) eingeführt, das effektive Merkmale aus allen Skalen adaptiv fusioniert, um die Strukturen jeder Skala abzuleiten. Experimentelle Ergebnisse auf dem anspruchsvollen NYU-Depth v2 Datensatz zeigen, dass unser vorgeschlagener Ansatz sowohl bei qualitativer als auch quantitativer Bewertung den Stand der Technik erreicht. Der Code ist unter https://github.com/Xt-Chen/SARPN verfügbar.