Distill-Any-Depth : Estimateur De Profondeur Monoculaire
1. Introduction au tutoriel

Distill-Any-Depth est un projet innovant d'estimation de profondeur monoculaire publié conjointement par l'Université de technologie du Zhejiang, l'Université Westlake, l'Université du Henan et l'Université nationale de Singapour le 28 février 2025. Le projet intègre les avantages de plusieurs modèles open source grâce à l'algorithme de distillation et peut réaliser une estimation de profondeur de haute précision avec seulement une petite quantité de données non étiquetées, actualisant les performances SOTA (State-of-the-Art) actuelles.Distiller n'importe quelle profondeur : la distillation crée un estimateur de profondeur monoculaire plus puissant".
Voici ses points clés :
- Cadre de distillation multi-enseignants
- En sélectionnant aléatoirement plusieurs modèles d’enseignants pour générer des pseudo-étiquettes, les avantages de différents modèles sont combinés pour améliorer la qualité des pseudo-étiquettes.
- Le mécanisme de distillation inter-contexte est introduit pour combiner les détails locaux avec les informations globales, améliorant considérablement la robustesse du modèle.
- Stratégie de normalisation locale
- La normalisation globale traditionnelle amplifiera le bruit. Ce projet propose d'effectuer une normalisation au sein de la zone recadrée afin de conserver les détails locaux (tels que les bords des objets et les structures de petits trous) et d'améliorer la précision des prédictions.
- Faible dépendance aux données
- Seules 20 000 images non étiquetées sont nécessaires (bien moins que les millions d’annotations requises par les méthodes traditionnelles), ce qui réduit considérablement le coût de l’annotation des données.
- Généralisation
- Dans les tests de référence tels que NYUv2 (intérieur), KITTI (conduite en extérieur) et DIODE (éclairage complexe), l'indicateur d'erreur (AbsRel) est nettement meilleur que le modèle précédent.
- robustesse
- Il fonctionne de manière stable sur des objets transparents, des surfaces réfléchissantes et des scènes dynamiques, résolvant ainsi le problème de défaillance des modèles traditionnels dans des conditions complexes.
- efficacité
- La vitesse d'inférence est plus de 10 fois plus rapide que celle des modèles basés sur la diffusion (tels que Marigold), prenant en charge les applications en temps réel.
Les ressources informatiques utilisées dans ce tutoriel sont une seule carte RTX 4090.
2. Affichage des effets

3. Étapes de l'opération
1. Démarrez le conteneur
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

2. Étapes d'utilisation


résultat

4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation
Les informations de citation pour ce projet sont les suivantes :
@article{he2025distill,
title = {Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator},
author = {Xiankang He and Dongyan Guo and Hongji Li and Ruibo Li and Ying Cui and Chi Zhang},
year = {2025},
journal = {arXiv preprint arXiv: 2502.19204}
}