HyperAIHyperAI
vor 11 Tagen

Metric3D: Ein Schritt hin zu zero-shot metric 3D-Vorhersage aus einer einzelnen Bildaufnahme

Wei Yin, Chi Zhang, Hao Chen, Zhipeng Cai, Gang Yu, Kaixuan Wang, Xiaozhi Chen, Chunhua Shen
Metric3D: Ein Schritt hin zu zero-shot metric 3D-Vorhersage aus einer einzelnen Bildaufnahme
Abstract

Die Rekonstruktion genauer 3D-Szenen aus Bildern ist eine langjährige Vision-Aufgabe. Aufgrund der schlecht gestellten Natur des Problems der Einzelbild-Rekonstruktion basieren die meisten etablierten Methoden auf der Mehransicht-Geometrie. Zustandsbestimmende (SOTA) monokulare Methoden zur Schätzung metrischer Tiefe können nur ein einziges Kameramodell verarbeiten und sind aufgrund der metrischen Ambiguität nicht in der Lage, gemischte Datensätze zu trainieren. Gleichzeitig erreichen SOTA-monokulare Methoden, die auf großen gemischten Datensätzen trainiert wurden, eine Zero-Shot-Verallgemeinerung, indem sie affin-invariante Tiefen lernen – was jedoch keine Wiederherstellung realer Welt-Metriken ermöglicht. In dieser Arbeit zeigen wir, dass der Schlüssel zu einem Zero-Shot-Modell für monokulare metrische Tiefe in der Kombination aus großskaligem Datentraining und der Auflösung der metrischen Ambiguität verschiedener Kameramodelle liegt. Wir schlagen einen Modul zur Transformation in einen kanonischen Kameraraum vor, der die Ambiguitätsprobleme explizit adressiert und nahtlos in bestehende monokulare Modelle integriert werden kann. Mit unserem Modul können monokulare Modelle stabil mit über acht Millionen Bildern aus Tausenden von Kameramodellen trainiert werden, was eine Zero-Shot-Verallgemeinerung auf realweltliche Bilder mit unbekannten Kameraeinstellungen ermöglicht. Experimente belegen die SOTA-Leistung unserer Methode auf sieben Zero-Shot-Benchmark-Datensätzen. Besonders hervorzuheben ist, dass unsere Methode den Sieg im 2. Monocular Depth Estimation Challenge errang. Unsere Methode ermöglicht die genaue Wiederherstellung metrischer 3D-Strukturen auf zufällig gesammelten Internetbildern und eröffnet den Weg für plausiblen Einzelbild-Metrologie. Die potenziellen Vorteile reichen über die direkte Anwendung hinaus und können bestehende Nachfolgeaufgaben erheblich verbessern, indem lediglich unser Modul eingesetzt wird. Zum Beispiel behebt unsere Methode das Skalendrift-Problem von monokularen SLAM-Systemen (Abb. 1), was hochwertige, metrisch korrekte dichte Karten ermöglicht. Der Quellcode ist unter https://github.com/YvanYin/Metric3D verfügbar.

Metric3D: Ein Schritt hin zu zero-shot metric 3D-Vorhersage aus einer einzelnen Bildaufnahme | Neueste Forschungsarbeiten | HyperAI