PrimeDepth: Effiziente monokulare Tiefenschätzung mit einem stabilen Diffusion-Preimage

Diese Arbeit befasst sich mit der Aufgabe der zero-shot monokularen Tiefenschätzung. Ein kürzlich erzielter Fortschritt in diesem Bereich beruht auf der Idee, Text-zu-Bild-Grundmodellen wie Stable Diffusion zu nutzen. Grundmodelle liefern eine reichhaltige und generische Bildrepräsentation, wodurch nur geringe Mengen an Trainingsdaten erforderlich sind, um diese Modelle effizient in Tiefenschätzungsmodule umzuformen, die hochdetaillierte Tiefenkarten vorhersagen und über gute Verallgemeinerungsfähigkeit verfügen. Allerdings hat die Umsetzung dieser Idee bisher zu Verfahren geführt, die aufgrund des zugrundeliegenden iterativen Entrauschungsprozesses im Testzeitpunkt äußerst ineffizient sind. In dieser Arbeit präsentieren wir eine alternative Umsetzung dieser Idee und stellen PrimeDepth vor, eine Methode, die im Testzeitpunkt äußerst effizient ist, gleichzeitig aber die positiven Eigenschaften diffusionbasierter Ansätze beibehält oder sogar verbessert. Unser zentrales Konzept besteht darin, aus Stable Diffusion durch eine einzige Entrauschungsschritt eine reichhaltige, jedoch fixierte Bildrepräsentation zu extrahieren. Diese Repräsentation bezeichnen wir als Preimage und leiten sie anschließend in ein Refiner-Netzwerk mit einer architektonischen induktiven Voreingenommenheit ein, bevor sie der nachgeschalteten Aufgabe zugeführt wird. Experimentell bestätigen wir, dass PrimeDepth gegenüber dem führenden diffusionbasierten Verfahren Marigold um zwei Größenordnungen schneller ist, gleichzeitig jedoch robuster in anspruchsvollen Szenarien ist und quantitativ marginal besser abschneidet. Auf diese Weise verringern wir die Lücke zu der derzeit führenden datengetriebenen Methode Depth Anything, die zwar weiterhin quantitativ überlegen ist, jedoch weniger detaillierte Tiefenkarten vorhersagt und 20-mal mehr beschriftete Daten erfordert. Aufgrund der komplementären Natur unseres Ansatzes führt bereits eine einfache Mittelung der Vorhersagen von PrimeDepth und Depth Anything zu einer Verbesserung beider Methoden und setzt eine neue State-of-the-Art-Leistung in der zero-shot monokularen Tiefenschätzung. In Zukunft könnten auch datengetriebene Ansätze von der Integration unserer Preimage-Technik profitieren.