Depth Anything: Freisetzen der Kraft von großskaligen, unlabeled Daten

Diese Arbeit präsentiert Depth Anything, eine hochpraktikable Lösung für robuste monokulare Tiefenschätzung. Ohne neue technische Bausteine zu entwickeln, streben wir an, ein einfaches, dennoch leistungsstarkes Grundmodell zu schaffen, das mit beliebigen Bildern unter beliebigen Bedingungen umgehen kann. Dazu erweitern wir die Datensammlung durch die Entwicklung einer Daten-Engine, die große Mengen an unlabeled Daten (~62 Mio.) sammelt und automatisch annotiert. Diese erhebliche Erweiterung der Datenvielfalt verbessert die Abdeckung erheblich und reduziert somit den Generalisierungsfehler. Wir untersuchen zwei einfache, jedoch wirksame Strategien, die die Skalierung der Datenbasis vielversprechend machen. Erstens wird durch den Einsatz von Daten-Augmentierungswerkzeugen ein anspruchsvolleres Optimierungsziel geschaffen, das das Modell zwingt, aktiv zusätzliche visuelle Kenntnisse zu erwerben und robuste Darstellungen zu lernen. Zweitens wird eine Hilfsüberwachung entwickelt, die sicherstellt, dass das Modell reiche semantische Vorwissen aus vortrainierten Encodern übernimmt. Wir evaluieren die Fähigkeit des Modells im Zero-Shot-Szenario umfassend – einschließlich sechs öffentlicher Datensätze und zufällig aufgenommener Fotos – und zeigen eine beeindruckende Generalisierungsfähigkeit. Darüber hinaus erreicht das Modell durch Feinabstimmung mit metrischen Tiefeninformationen aus NYUv2 und KITTI neue SOTA-Ergebnisse. Unser verbessertes Tiefenmodell führt zudem zu einer besseren tiefenbedingten ControlNet. Die Modelle sind unter https://github.com/LiheYoung/Depth-Anything verfügbar.