HyperAI

Depth Pro : Une Nouvelle Étape Dans L'estimation De La Profondeur

Depth Pro : obtenez des mesures de profondeur monoculaires claires en moins d'une seconde

1. Introduction au tutoriel

Depth Pro est un modèle de base pour l'estimation de la profondeur monoculaire métrique à zéro tir qui a été open-source par Apple en octobre 2024. Les résultats de l'article associé sont "Depth Pro : une profondeur métrique monoculaire nette en moins d'une seconde» par Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter et Vladlen Koltun.

Depth Pro génère rapidement des cartes de profondeur 3D haute résolution à partir d'une seule image 2D. Ce modèle est non seulement rapide, ne prenant que 0,3 seconde, mais fournit également des informations de profondeur au niveau métrique, et les cartes de profondeur générées ont une échelle réelle. Depth Pro ne dépend pas des paramètres internes de l'appareil photo, tels que la distance focale, et est très polyvalent. Il excelle dans la capture des détails des limites et peut représenter clairement les structures fines telles que les cheveux et la végétation. Depth Pro est capable d'un apprentissage sans prise de vue, ce qui signifie qu'il peut faire des prédictions précises sans aucune formation de données spécifique à un domaine, ce qui lui confère un large potentiel d'application dans de multiples domaines tels que la réalité augmentée, la reconstruction 3D et l'édition d'images.

Les principales fonctionnalités de Depth Pro incluent :

  • Estimation de la profondeur métrique à zéro prise de vue : génération d'une carte de profondeur métrique avec échelle absolue à partir d'une seule image 2D sans paramètres de caméra intrinsèques.
  • Sortie haute résolution : le modèle peut générer des cartes de profondeur jusqu'à 2,25 mégapixels, offrant des détails riches.
  • Traitement rapide : sur un GPU standard, Depth Pro génère une carte de profondeur en 0,3 seconde, adaptée aux applications en temps réel.
  • Capture des détails : il est particulièrement efficace pour capturer des structures subtiles telles que les cheveux et la végétation, et pour améliorer la clarté des limites.

En termes de principes techniques, Depth Pro est basé sur une architecture de transformateur visuel multi-échelle (ViT) efficace qui capture le contexte global de l'image tout en identifiant avec précision les structures fines à haute résolution. Il est formé sur une combinaison d'ensembles de données réelles et synthétiques pour obtenir des mesures de haute précision et un suivi détaillé des limites. Depth Pro estime également la distance focale à partir d'une seule image, ce qui le place en tête du classement en matière d'estimation de la distance focale à échantillon nul. De plus, il adopte une stratégie de formation en deux étapes, où la première étape vise à apprendre des fonctionnalités robustes dans tous les domaines et la deuxième étape se concentre sur l'affinement des limites et la révélation de détails subtils dans la carte de profondeur prédite.

Aperçu de l'effet

2. Étapes de l'opération

Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Synthèse de cartes de profondeur à haute résolution

Il y a deux paramètres à choisir pendant le processus de génération

  • Rotation automatique : rotation automatique
  • Supprimer Alpha : Supprimer Alpha

Téléchargez une image ou sélectionnez un échantillon comme demandé

Générer l'affichage des résultats
Figure 1 Démonstration de la synthèse d'une carte de profondeur à haute résolution

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓