vor 11 Tagen

Umwidmung von diffusionbasierten Bildgeneratoren für die Schätzung von Tiefen aus einer einzigen Kamera

Bingxin Ke, Anton Obukhov, Shengyu Huang, Nando Metzger, Rodrigo Caye Daudt, Konrad Schindler

Abstract

Die Schätzung der Tiefen aus einer einzigen Kamera (monokulare Tiefenschätzung) ist eine grundlegende Aufgabe im Bereich des Computersehens. Die Rekonstruktion von 3D-Tiefe aus einem einzigen Bild ist geometrisch schlecht gestellt und erfordert ein tiefes Verständnis der Szene – daher ist es wenig überraschend, dass der Aufstieg der tiefen Lernverfahren zu einem Durchbruch geführt hat. Die beeindruckende Entwicklung monokularer Tiefenschätzer hat sich dabei parallel zur Zunahme der Modellkapazität entwickelt, von relativ bescheidenen CNNs hin zu großen Transformer-Architekturen. Dennoch zeigen monokulare Tiefenschätzer oft Schwierigkeiten bei Bildern mit unbekannten Inhalten und Layouts, da ihr Wissen über die visuelle Welt durch die während des Trainings gesehenen Daten eingeschränkt ist und durch die Herausforderung der Zero-Shot-Verallgemeinerung auf neue Domänen zusätzlich belastet wird. Dies motiviert uns, zu untersuchen, ob die umfangreichen Vorwissen, die in jüngsten generativen Diffusionsmodellen erfasst wurden, eine bessere und generalisierbarere Tiefenschätzung ermöglichen können. Wir stellen Marigold vor, eine Methode zur affin-invarianten monokularen Tiefenschätzung, die auf Stable Diffusion basiert und deren reichhaltiges Vorwissen beibehält. Der Schätzer kann innerhalb weniger Tage auf einer einzigen GPU mit ausschließlich synthetischen Trainingsdaten fine-tuned werden. Er erreicht state-of-the-art-Leistungen über eine breite Palette von Datensätzen hinweg und zeigt in bestimmten Fällen sogar eine Verbesserung um über 20 %. Projektseite: https://marigoldmonodepth.github.io.