HyperAIHyperAI
vor 17 Tagen

UniDepth: Universal Monocular Metric Depth Estimation

Luigi Piccinelli, Yung-Hsu Yang, Christos Sakaridis, Mattia Segu, Siyuan Li, Luc Van Gool, Fisher Yu
UniDepth: Universal Monocular Metric Depth Estimation
Abstract

Genauige monokulare metrische Tiefenschätzung (MMDE) ist entscheidend für die Lösung nachgeschalteter Aufgaben im Bereich der 3D-Wahrnehmung und -Modellierung. Allerdings ist die bemerkenswerte Genauigkeit neuer MMDE-Methoden auf ihre Trainingsdomänen beschränkt. Diese Verfahren zeigen keine ausreichende Generalisierungsfähigkeit gegenüber unbekannten Domänen, selbst bei geringen Domänenunterschieden, was ihre praktische Anwendbarkeit erheblich einschränkt. Wir stellen ein neues Modell, UniDepth, vor, das in der Lage ist, metrische 3D-Szenen allein aus einzelnen Bildern über verschiedene Domänen hinweg zu rekonstruieren. Im Gegensatz zu bestehenden MMDE-Methoden prognostiziert UniDepth direkt metrische 3D-Punkte aus dem Eingabebild während der Inferenz ohne zusätzliche Informationen und strebt damit eine universelle und flexible Lösung für die MMDE an. Insbesondere implementiert UniDepth ein selbst-promptbares Kameramodul, das dichte Kameradarstellungen vorhersagt, um die Tiefenmerkmale zu konditionieren. Unser Modell nutzt eine pseudo-sphärische Ausgabedarstellung, die Kamera- und Tiefenrepräsentationen entkoppelt. Zudem stellen wir eine geometrische Invarianzverlustfunktion vor, die die Invarianz der kameragepumpten Tiefenmerkmale fördert. Ausführliche Evaluierungen an zehn Datensätzen im Zero-Shot-Setup zeigen konsistent die überlegene Leistung von UniDepth, selbst im Vergleich zu Methoden, die direkt auf den Testdomänen trainiert wurden. Code und Modelle sind verfügbar unter: https://github.com/lpiccinelli-eth/unidepth