Profondeur métrique zéro-shot avec un modèle de diffusion conditionné par le champ de vision

Bien que les méthodes d’estimation de profondeur à partir d’une seule image aient fait des progrès significatifs sur les benchmarks standards, l’estimation de profondeur métrique en zero-shot reste un problème non résolu. Les défis incluent la modélisation conjointe des scènes intérieures et extérieures, qui présentent souvent des distributions très différentes des données RGB et de la profondeur, ainsi que l’ambiguïté d’échelle due à l’incertitude des paramètres intrinsèques de la caméra. Des travaux récents ont proposé des architectures multi-têtes spécialisées pour modéliser conjointement les scènes intérieures et extérieures. À l’inverse, nous proposons un modèle diffusif générique et indépendant de la tâche, accompagné de plusieurs avancées : une paramétrisation de la profondeur en échelle logarithmique permettant une modélisation conjointe des scènes intérieures et extérieures, une conditionnement sur le champ de vision (FOV) pour gérer l’ambiguïté d’échelle, et une augmentation synthétique du FOV durant l’entraînement afin de généraliser au-delà des intrinsèques de caméra limitées présentes dans les jeux de données d’entraînement. En outre, en utilisant un mélange d’entraînement plus diversifié que la norme, ainsi qu’une paramétrisation diffusif efficace, notre méthode, DMD (Diffusion for Metric Depth), atteint une réduction de 25 % de l’erreur relative (REL) sur des jeux de données intérieures en zero-shot, et une réduction de 33 % sur des jeux de données extérieures en zero-shot, par rapport à l’état de l’art actuel, tout en utilisant un nombre réduit d’étapes de débruitage. Pour un aperçu, rendez-vous sur https://diffusion-vision.github.io/dmd