DepthMaster: Die Zähmung von Diffusionsmodellen für die monokulare Tiefenschätzung

Monokulare Tiefenschätzung im Diffusions-Entverhausungsparadigma zeigt beeindruckende Generalisierungsfähigkeiten, leidet aber an einer niedrigen Inferenzgeschwindigkeit. Neueste Methoden greifen zu einem einstufigen deterministischen Paradigma, um die Inferenzeffizienz zu verbessern, während sie vergleichbare Leistung aufrechterhalten. Sie übersehen jedoch die Lücke zwischen generativen und diskriminativen Merkmalen, was zu suboptimalen Ergebnissen führt. In dieser Arbeit schlagen wir DepthMaster vor, ein einstufiges Diffusionsmodell, das darauf ausgelegt ist, generative Merkmale für die diskriminative TiefenschätzungsAufgabe anzupassen. Erstens, um das Überanpassen an Texturdetails, die durch generative Merkmale eingeführt werden, zu mildern, schlagen wir ein Feature Alignment Modul (Feature Alignment) vor, das hochwertige semantische Merkmale integriert, um die Darstellungsfähigkeit des Entverhausungsnetzes zu verbessern. Zweitens, um den Mangel an feingranularen Details im einstufigen deterministischen Rahmen zu beheben, schlagen wir ein Fourier Enhancement Modul (Fourier Enhancement) vor, das dazu dient, Strukturen mit niedriger Frequenz und Details mit hoher Frequenz adaptiv auszugleichen. Wir verwenden eine zweistufige Trainingsstrategie, um das volle Potenzial der beiden Module auszuschöpfen. In der ersten Stufe konzentrieren wir uns auf das Erlernen der globalen Szenenstruktur mit dem Feature Alignment Modul; in der zweiten Stufe nutzen wir das Fourier Enhancement Modul zur Verbesserung der visuellen Qualität. Durch diese Anstrengungen erreicht unser Modell Spitzenleistungen hinsichtlich Generalisierung und Detailerhaltung und übertrifft andere diffusionsbasierte Methoden bei verschiedenen Datensätzen. Unsere Projektseite finden Sie unter https://indu1ge.github.io/DepthMaster_page.