UniDepth : Estimation universelle de profondeur métrique à partir d'une seule vue

L’estimation précise de profondeur métrique monocablée (MMDE, monocular metric depth estimation) est essentielle pour résoudre des tâches ultérieures en perception et modélisation 3D. Toutefois, la précision remarquable des méthodes récentes de MMDE est limitée à leurs domaines d’entraînement. Ces méthodes échouent à généraliser à des domaines inédits, même en présence d’écart de domaine modéré, ce qui entrave leur application pratique. Nous proposons un nouveau modèle, UniDepth, capable de reconstruire des scènes 3D métriques à partir d’images simples, indépendamment du domaine. Contrairement aux méthodes existantes de MMDE, UniDepth prédit directement des points 3D métriques à partir de l’image d’entrée au moment de l’inférence, sans nécessiter d’informations supplémentaires, en visant une solution universelle et flexible pour la MMDE. Plus précisément, UniDepth intègre un module de caméra auto-promptable qui prédit une représentation dense de la caméra afin de conditionner les caractéristiques de profondeur. Notre modèle exploite une représentation de sortie pseudo-sphérique, qui découple les représentations de caméra et de profondeur. En outre, nous proposons une perte d’invariance géométrique, qui favorise l’invariance des caractéristiques de profondeur conditionnées par la caméra. Des évaluations approfondies sur dix jeux de données, dans un cadre zéro-shot, démontrent de manière cohérente la supériorité de UniDepth, même par rapport à des méthodes entraînées directement sur les domaines de test. Le code et les modèles sont disponibles à l’adresse : https://github.com/lpiccinelli-eth/unidepth