ECoDepth : Conditionnement efficace des modèles de diffusion pour l'estimation de profondeur à partir d'une seule vue

En l’absence de cues de parallaxe, un modèle d’estimation de profondeur à partir d’une seule image basé sur l’apprentissage (SIDE) dépend fortement des cues d’ombrage et contextuelles présentes dans l’image. Bien que cette simplicité soit attrayante, il est nécessaire de former de tels modèles sur des jeux de données volumineux et variés, dont la collecte s’avère difficile. Il a été démontré que l’utilisation d’embeddings issus de modèles fondamentaux pré-entraînés, tels que CLIP, améliore le transfert zéro-shot dans plusieurs applications. Inspirés par ces résultats, nous explorons dans notre article l’usage de priorités globales d’image générées à partir d’un modèle ViT pré-entraîné afin de fournir des informations contextuelles plus détaillées. Nous affirmons qu’un vecteur d’embedding issu d’un modèle ViT pré-entraîné sur un grand jeu de données capture davantage d’informations pertinentes pour le SIDE que la méthode classique consistant à générer des légendes synthétiques d’image, puis à extraire des embeddings textuels via CLIP. À partir de cette idée, nous proposons un nouveau modèle SIDE reposant sur une architecture à diffusion conditionnée par des embeddings ViT. Notre approche établit un nouveau record (SOTA) pour le SIDE sur le jeu de données NYUv2, atteignant un erreur Abs Rel de 0,059 (amélioration de 14 % par rapport à 0,069 du SOTA actuel, VPD), et une erreur Sq Rel de 0,139 sur KITTI (amélioration de 2 % par rapport à 0,142 du SOTA actuel, GEDepth). En ce qui concerne le transfert zéro-shot avec un modèle entraîné sur NYUv2, nous rapportons une amélioration moyenne relative de (20 %, 23 %, 81 %, 25 %) par rapport à NeWCRFs sur les jeux de données (Sun-RGBD, iBims1, DIODE, HyperSim), contre (16 %, 18 %, 45 %, 9 %) pour ZoeDepth. La page du projet est disponible à l’adresse suivante : https://ecodepth-iitd.github.io