Tiefenkarten-Zerlegung für monokulare Tiefenschätzung

Wir stellen einen neuen Algorithmus für die monokulare Tiefenschätzung vor, der eine metrische Tiefenkarte in eine normierte Tiefenkarte und Skalierungsmerkmale zerlegt. Das vorgeschlagene Netzwerk besteht aus einem gemeinsamen Encoder und drei Decodern, namens G-Net, N-Net und M-Net, die jeweils Gradientenkarten, eine normierte Tiefenkarte und eine metrische Tiefenkarte schätzen. Das M-Net lernt, metrische Tiefen genauer zu schätzen, indem es relative Tiefenmerkmale nutzt, die von G-Net und N-Net extrahiert wurden. Der vorgeschlagene Algorithmus besitzt den Vorteil, dass er Datensätze ohne metrische Tiefenlabels nutzen kann, um die Leistung der metrischen Tiefenschätzung zu verbessern. Experimentelle Ergebnisse auf verschiedenen Datensätzen zeigen, dass der vorgeschlagene Algorithmus nicht nur eine konkurrenzfähige Leistung im Vergleich zu aktuellen State-of-the-Art-Verfahren erzielt, sondern auch akzeptable Ergebnisse liefert, selbst wenn nur eine geringe Menge an metrischen Tiefendaten für das Training zur Verfügung steht.