Zero-Shot-Metrik-Tiefe mit einem feldbetrachtungsbedingten Diffusionsmodell

Obwohl Methoden zur monokularen Tiefenschätzung auf Standardbenchmarks erhebliche Fortschritte erzielt haben, bleibt die zero-shot-metrische Tiefenschätzung weiterhin ungelöst. Zu den zentralen Herausforderungen zählen die gemeinsame Modellierung von Innen- und Außenbereichen, die oft erheblich unterschiedliche Verteilungen von RGB und Tiefenwerten aufweisen, sowie die Tiefenskala-Ambiguität aufgrund unbekannter Kameraintrinsika. Kürzlich wurden spezialisierte Multi-Head-Architekturen vorgeschlagen, um Innen- und Außenbereiche gemeinsam zu modellieren. Im Gegensatz dazu setzen wir auf ein generisches, aufgabeunabhängiges Diffusionsmodell mit mehreren Innovationen: So ermöglicht die Log-Skala-Parameterisierung der Tiefe die gemeinsame Modellierung von Innen- und Außenbereichen, die Bedingung auf den Blickwinkel (Field-of-View, FOV) dient zur Bewältigung der Skalenambiguität, und die synthetische Erweiterung des FOV während des Trainings trägt dazu bei, über die begrenzten Kameraintrinsika in den Trainingsdatensätzen hinaus generalisieren zu können. Zudem erreicht unsere Methode, DMD (Diffusion for Metric Depth), durch die Verwendung einer vielfältigeren Trainingsmischung als üblich und einer effizienten Diffusionsparameterisierung eine Reduktion des relativen Fehlers (REL) um 25 % auf zero-shot-Innenbereichen und um 33 % auf zero-shot-Außenbereichen gegenüber dem aktuellen State-of-the-Art – und das mit nur einer geringen Anzahl von Entrauschungsschritten. Für eine Übersicht siehe https://diffusion-vision.github.io/dmd