Metric3Dv2: Ein vielseitiges monokulares geometrisches Grundmodell für zero-shot-metrische Tiefen- und Oberflächennormalenschätzung

Wir stellen Metric3D v2 vor, ein geometrisches Grundmodell zur zero-shot-Schätzung von metrischem Tiefenbild und Oberflächennormalen aus einer einzelnen Bildaufnahme, was entscheidend für die metrische 3D-Rekonstruktion ist. Obwohl Tiefeninformation und Oberflächennormalen geometrisch verwandt und stark komplementär sind, stellen sie jeweils unterschiedliche Herausforderungen dar. Zustandsbeste (SoTA) monokulare Tiefenschätzmethoden erreichen zero-shot-Verallgemeinerung, indem sie affin-invariante Tiefen lernen, die jedoch keine reale Welt-Metrik wiedergeben können. Gleichzeitig weisen Zustandsbeste (SoTA) Methoden zur Oberflächennormalenschätzung aufgrund des Mangels an großskaligen, annotierten Datensätzen begrenzte zero-shot-Leistung auf. Um diese Probleme zu bewältigen, schlagen wir Lösungen sowohl für die metrische Tiefenschätzung als auch für die Schätzung von Oberflächennormalen vor. Für die metrische Tiefenschätzung zeigen wir, dass der Schlüssel zu einem zero-shot-Modell für Einzelbilder darin liegt, die metrische Mehrdeutigkeit aus verschiedenen Kameramodellen und der Ausbildung mit großskaligen Datensätzen zu lösen. Dazu präsentieren wir ein Modul zur Transformation in einen kanonischen Kameraraum, das das Mehrdeutigkeitsproblem explizit adressiert und nahtlos in bestehende monokulare Modelle integriert werden kann. Für die Schätzung von Oberflächennormalen schlagen wir ein gemeinsames Tiefen-Normalen-Optimierungsmodul vor, das vielfältiges Wissen aus metrischen Tiefenbildern extrahiert und Normalenschätzer befähigt, über die reinen Normalenlabels hinaus zu lernen. Mit diesen Modulen können unsere Tiefen-Normalen-Modelle stabil mit über 16 Millionen Bildern aus Tausenden verschiedener Kameramodelle mit unterschiedlichen Annotationstypen trainiert werden, was eine robuste zero-shot-Verallgemeinerung auf realwelttypische Bilder mit bisher unbekannten Kameraeinstellungen ermöglicht. Unser Ansatz erlaubt die genaue Rekonstruktion metrischer 3D-Strukturen auf zufällig gesammelten Internetbildern und eröffnet damit neue Perspektiven für plausiblen Einzelbild-Metrolgie. Die Projektseite finden Sie unter https://JUGGHM.github.io/Metric3Dv2.