Datum

vor einem Jahr

Größe

3.8 GB

Depth Pro: Erhalten Sie klare monokulare Tiefenmessungen in weniger als einer Sekunde

1. Einführung in das Tutorial

Depth Pro ist ein grundlegendes Modell für die monokulare Tiefenschätzung mittels Zero-Shot-Metrik und wurde im Oktober 2024 von Apple als Open Source veröffentlicht. Zugehörige Forschungsarbeiten umfassen… Depth Pro: Scharfe monokulare metrische Tiefe in weniger als einer Sekunde, geschrieben von Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter und Vladlen Koltun.

Depth Pro generiert schnell hochauflösende 3D-Tiefenkarten aus einem einzelnen 2D-Bild. Dieses Modell ist nicht nur schnell (es dauert nur 0,3 Sekunden), sondern bietet auch Tiefeninformationen auf metrischer Ebene und die generierten Tiefenkarten haben einen realen Maßstab. Depth Pro ist nicht von internen Parametern der Kamera, wie etwa der Brennweite, abhängig und äußerst vielseitig. Es zeichnet sich durch die Erfassung von Randdetails aus und kann feine Strukturen wie Haare und Vegetation klar darstellen. Depth Pro ist zum Zero-Shot-Learning fähig, was bedeutet, dass es genaue Vorhersagen ohne domänenspezifisches Datentraining treffen kann, was ihm ein breites Anwendungspotenzial in vielen Bereichen wie Augmented Reality, 3D-Rekonstruktion und Bildbearbeitung verleiht.

Zu den Hauptfunktionen von Depth Pro gehören:

Zero-Shot-Metrische Tiefenschätzung: Generieren einer metrischen Tiefenkarte mit absolutem Maßstab aus einem einzelnen 2D-Bild ohne intrinsische Kameraparameter.
Ausgabe mit hoher Auflösung: Das Modell kann Tiefenkarten mit bis zu 2,25 Megapixeln generieren und so detailreiche Darstellungen liefern.
Schnelle Verarbeitung: Auf einer Standard-GPU generiert Depth Pro in 0,3 Sekunden eine Tiefenkarte, die für Echtzeitanwendungen geeignet ist.
Detailerfassung: Besonders gut lassen sich damit feine Strukturen wie Haare und Vegetation erfassen und die Klarheit von Grenzen verbessern.

Technisch basiert Depth Pro auf einer effizienten Multi-Scale Visual Transformer (ViT)-Architektur, die den globalen Bildkontext erfasst und gleichzeitig feine Strukturen in hoher Auflösung präzise identifiziert. Es wird anhand einer Kombination aus realen und synthetischen Datensätzen trainiert, um hochpräzise Metriken und eine detaillierte Grenzverfolgung zu erreichen. Depth Pro schätzt die Brennweite auch anhand eines einzelnen Bildes und ist damit führend bei der Schätzung der Brennweite mit Nullstichproben. Darüber hinaus wird eine zweistufige Trainingsstrategie angewendet, wobei die erste Stufe darauf abzielt, robuste Funktionen über Domänen hinweg zu erlernen, und die zweite Stufe sich auf die Schärfung von Grenzen und die Offenlegung subtiler Details in der vorhergesagten Tiefenkarte konzentriert.

Effektvorschau

2. Bedienungsschritte

Klicken Sie nach dem Starten des Containers auf die API-Adresse, um zur Weboberfläche zu gelangen

Hochauflösende Tiefenkartensynthese

Während des Generierungsprozesses stehen zwei Parameter zur Auswahl

Automatisch drehen: Automatische Drehung
Alpha entfernen

Laden Sie ein Bild hoch oder wählen Sie ein Beispiel wie gewünscht aus

Abbildung 1 Demonstration der hochauflösenden Tiefenkartensynthese

Austausch und Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Notebooks

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen

Datum

vor einem Jahr

Größe

3.8 GB

Depth Pro: Erhalten Sie klare monokulare Tiefenmessungen in weniger als einer Sekunde

1. Einführung in das Tutorial

Zu den Hauptfunktionen von Depth Pro gehören:

Zero-Shot-Metrische Tiefenschätzung: Generieren einer metrischen Tiefenkarte mit absolutem Maßstab aus einem einzelnen 2D-Bild ohne intrinsische Kameraparameter.
Ausgabe mit hoher Auflösung: Das Modell kann Tiefenkarten mit bis zu 2,25 Megapixeln generieren und so detailreiche Darstellungen liefern.
Schnelle Verarbeitung: Auf einer Standard-GPU generiert Depth Pro in 0,3 Sekunden eine Tiefenkarte, die für Echtzeitanwendungen geeignet ist.
Detailerfassung: Besonders gut lassen sich damit feine Strukturen wie Haare und Vegetation erfassen und die Klarheit von Grenzen verbessern.

Effektvorschau

2. Bedienungsschritte

Klicken Sie nach dem Starten des Containers auf die API-Adresse, um zur Weboberfläche zu gelangen

Hochauflösende Tiefenkartensynthese

Während des Generierungsprozesses stehen zwei Parameter zur Auswahl

Automatisch drehen: Automatische Drehung
Alpha entfernen

Laden Sie ein Bild hoch oder wählen Sie ein Beispiel wie gewünscht aus

Austausch und Diskussion

Verwandt Notebooks

Depth-Anything-3: Wiederherstellung Des Visuellen Raums Aus Jeder Perspektive

vor 2 Monaten

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

vor 3 Monaten

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

vor 2 Monaten

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

vor 21 Tagen

Docling: Tool Zur Dokumentanalyse

vor 2 Monaten

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

vor 3 Monaten

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

vor 3 Monaten

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

vor 2 Monaten

Qwen-Image-Lightning Mit Einem Klick Bereitstellen

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Depth Pro: Ein Neuer Schritt in Der Tiefenschätzung

Depth Pro: Erhalten Sie klare monokulare Tiefenmessungen in weniger als einer Sekunde

1. Einführung in das Tutorial

Effektvorschau

2. Bedienungsschritte

Hochauflösende Tiefenkartensynthese

Austausch und Diskussion

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Depth Pro: Ein Neuer Schritt in Der Tiefenschätzung

Depth Pro: Erhalten Sie klare monokulare Tiefenmessungen in weniger als einer Sekunde

1. Einführung in das Tutorial

Effektvorschau

2. Bedienungsschritte

Hochauflösende Tiefenkartensynthese

Austausch und Diskussion

Verwandt Notebooks

Depth-Anything-3: Wiederherstellung Des Visuellen Raums Aus Jeder Perspektive

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

Docling: Tool Zur Dokumentanalyse

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

Qwen-Image-Lightning Mit Einem Klick Bereitstellen

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Depth Pro: Ein Neuer Schritt in Der Tiefenschätzung

Depth Pro: Erhalten Sie klare monokulare Tiefenmessungen in weniger als einer Sekunde

1. Einführung in das Tutorial

Effektvorschau

2. Bedienungsschritte

Hochauflösende Tiefenkartensynthese

Austausch und Diskussion

Verwandt Notebooks

Depth-Anything-3: Wiederherstellung Des Visuellen Raums Aus Jeder Perspektive

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

Docling: Tool Zur Dokumentanalyse

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

Qwen-Image-Lightning Mit Einem Klick Bereitstellen

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Notebooks

Depth-Anything-3: Wiederherstellung Des Visuellen Raums Aus Jeder Perspektive

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

Docling: Tool Zur Dokumentanalyse

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

Qwen-Image-Lightning Mit Einem Klick Bereitstellen

Verwandt Notebooks

Depth-Anything-3: Wiederherstellung Des Visuellen Raums Aus Jeder Perspektive

HunyuanWorld-Mirror: Ein 3D-Weltgenerierungsmodell

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

Docling: Tool Zur Dokumentanalyse

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

FLUX.2-dev: Bildgenerierungs- Und Bearbeitungsmodell

Qwen-Image-Lightning Mit Einem Klick Bereitstellen