HyperAIHyperAI

Command Palette

Search for a command to run...

Umwidmung von diffusionbasierten Bildgeneratoren für die Schätzung von Tiefen aus einer einzigen Kamera

Bingxin Ke Anton Obukhov Shengyu Huang Nando Metzger Rodrigo Caye Daudt Konrad Schindler

Zusammenfassung

Die Schätzung der Tiefen aus einer einzigen Kamera (monokulare Tiefenschätzung) ist eine grundlegende Aufgabe im Bereich des Computersehens. Die Rekonstruktion von 3D-Tiefe aus einem einzigen Bild ist geometrisch schlecht gestellt und erfordert ein tiefes Verständnis der Szene – daher ist es wenig überraschend, dass der Aufstieg der tiefen Lernverfahren zu einem Durchbruch geführt hat. Die beeindruckende Entwicklung monokularer Tiefenschätzer hat sich dabei parallel zur Zunahme der Modellkapazität entwickelt, von relativ bescheidenen CNNs hin zu großen Transformer-Architekturen. Dennoch zeigen monokulare Tiefenschätzer oft Schwierigkeiten bei Bildern mit unbekannten Inhalten und Layouts, da ihr Wissen über die visuelle Welt durch die während des Trainings gesehenen Daten eingeschränkt ist und durch die Herausforderung der Zero-Shot-Verallgemeinerung auf neue Domänen zusätzlich belastet wird. Dies motiviert uns, zu untersuchen, ob die umfangreichen Vorwissen, die in jüngsten generativen Diffusionsmodellen erfasst wurden, eine bessere und generalisierbarere Tiefenschätzung ermöglichen können. Wir stellen Marigold vor, eine Methode zur affin-invarianten monokularen Tiefenschätzung, die auf Stable Diffusion basiert und deren reichhaltiges Vorwissen beibehält. Der Schätzer kann innerhalb weniger Tage auf einer einzigen GPU mit ausschließlich synthetischen Trainingsdaten fine-tuned werden. Er erreicht state-of-the-art-Leistungen über eine breite Palette von Datensätzen hinweg und zeigt in bestimmten Fällen sogar eine Verbesserung um über 20 %. Projektseite: https://marigoldmonodepth.github.io.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp