HyperAI

Depth Pro: Ein Neuer Schritt in Der Tiefenschätzung

Depth Pro: Erhalten Sie klare monokulare Tiefenmessungen in weniger als einer Sekunde

1. Einführung in das Tutorial

Depth Pro ist ein Basismodell für die metrische Tiefenschätzung von Monokularen mit Null-Schuss-Methoden, das im Oktober 2024 von Apple als Open Source veröffentlicht wurde. Die zugehörigen Ergebnisse sind:Depth Pro: Scharfe monokulare metrische Tiefe in weniger als einer Sekunde” von Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter und Vladlen Koltun.

Depth Pro generiert schnell hochauflösende 3D-Tiefenkarten aus einem einzelnen 2D-Bild. Dieses Modell ist nicht nur schnell (es dauert nur 0,3 Sekunden), sondern bietet auch Tiefeninformationen auf metrischer Ebene und die generierten Tiefenkarten haben einen realen Maßstab. Depth Pro ist nicht von internen Parametern der Kamera, wie etwa der Brennweite, abhängig und äußerst vielseitig. Es zeichnet sich durch die Erfassung von Randdetails aus und kann feine Strukturen wie Haare und Vegetation klar darstellen. Depth Pro ist zum Zero-Shot-Learning fähig, was bedeutet, dass es genaue Vorhersagen ohne domänenspezifisches Datentraining treffen kann, was ihm ein breites Anwendungspotenzial in vielen Bereichen wie Augmented Reality, 3D-Rekonstruktion und Bildbearbeitung verleiht.

Zu den Hauptfunktionen von Depth Pro gehören:

  • Zero-Shot-Metrische Tiefenschätzung: Generieren einer metrischen Tiefenkarte mit absolutem Maßstab aus einem einzelnen 2D-Bild ohne intrinsische Kameraparameter.
  • Ausgabe mit hoher Auflösung: Das Modell kann Tiefenkarten mit bis zu 2,25 Megapixeln generieren und so detailreiche Darstellungen liefern.
  • Schnelle Verarbeitung: Auf einer Standard-GPU generiert Depth Pro in 0,3 Sekunden eine Tiefenkarte, die für Echtzeitanwendungen geeignet ist.
  • Detailerfassung: Besonders gut lassen sich damit feine Strukturen wie Haare und Vegetation erfassen und die Klarheit von Grenzen verbessern.

Technisch basiert Depth Pro auf einer effizienten Multi-Scale Visual Transformer (ViT)-Architektur, die den globalen Bildkontext erfasst und gleichzeitig feine Strukturen in hoher Auflösung präzise identifiziert. Es wird anhand einer Kombination aus realen und synthetischen Datensätzen trainiert, um hochpräzise Metriken und eine detaillierte Grenzverfolgung zu erreichen. Depth Pro schätzt die Brennweite auch anhand eines einzelnen Bildes und ist damit führend bei der Schätzung der Brennweite mit Nullstichproben. Darüber hinaus wird eine zweistufige Trainingsstrategie angewendet, wobei die erste Stufe darauf abzielt, robuste Funktionen über Domänen hinweg zu erlernen, und die zweite Stufe sich auf die Schärfung von Grenzen und die Offenlegung subtiler Details in der vorhergesagten Tiefenkarte konzentriert.

Effektvorschau

2. Bedienungsschritte

Klicken Sie nach dem Starten des Containers auf die API-Adresse, um zur Weboberfläche zu gelangen

Hochauflösende Tiefenkartensynthese

Während des Generierungsprozesses stehen zwei Parameter zur Auswahl

  • Automatisch drehen: Automatische Drehung
  • Alpha entfernen

Laden Sie ein Bild hoch oder wählen Sie ein Beispiel wie gewünscht aus

Ergebnisanzeige generieren
Abbildung 1 Demonstration der hochauflösenden Tiefenkartensynthese

Austausch und Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓