Distiller n'importe quelle profondeur : la distillation crée un estimateur monocular plus puissant de la profondeur

L'estimation de profondeur monoscopique (MDE) vise à prédire la profondeur d'une scène à partir d'une seule image RGB et joue un rôle fondamental dans la compréhension 3D des scènes. Les avancées récentes en MDE sans apprentissage préalable exploitent des représentations normalisées de la profondeur et des méthodes d'apprentissage par distillation afin d'améliorer la généralisation sur des scènes diverses. Toutefois, les méthodes actuelles de normalisation de la profondeur utilisées dans le cadre de la distillation, qui reposent sur une normalisation globale, ont tendance à amplifier les pseudo-étiquettes bruitées, réduisant ainsi l'efficacité de la distillation. Dans cet article, nous analysons de manière systématique l'impact de différentes stratégies de normalisation de la profondeur sur la distillation des pseudo-étiquettes. À partir de nos observations, nous proposons une méthode appelée Cross-Context Distillation, qui intègre à la fois des indices de profondeur globaux et locaux afin d'améliorer la qualité des pseudo-étiquettes. En outre, nous introduisons un cadre de distillation multi-enseignants qui exploite les forces complémentaires de différents modèles d'estimation de profondeur, conduisant à des prédictions de profondeur plus robustes et précises. Des expériences étendues sur des jeux de données de référence démontrent que notre approche surpasse significativement les méthodes de pointe, tant du point de vue quantitatif que qualitatif.