Amélioration des modèles d’estimation de profondeur monocablée à haute résolution par fusion multi-résolution adaptative au contenu

Les réseaux de neurones ont démontré des capacités remarquables dans l’estimation de la profondeur à partir d’une seule image. Toutefois, les cartes de profondeur obtenues restent souvent bien en dessous d’une résolution d’un mégapixel et manquent fréquemment de détails fins, ce qui limite leur utilité pratique. Notre méthode s’appuie sur une analyse approfondie de l’impact de la résolution d’entrée et de la structure de la scène sur la performance de l’estimation de profondeur. Nous montrons qu’il existe un compromis entre la cohérence de la structure scénique et la préservation des détails haute fréquence, et nous combinons des estimations à basse et haute résolution afin d’exploiter cette dualité grâce à un réseau de fusion de profondeur simple. Nous proposons une méthode à double estimation améliorant l’estimation globale de profondeur, ainsi qu’une méthode de sélection de patch permettant d’ajouter des détails locaux au résultat final. Nous démontrons qu’en fusionnant des estimations à différentes résolutions tout en adaptant le contexte, il est possible de générer des cartes de profondeur multi-mégapixels, riches en détails, à l’aide d’un modèle pré-entraîné.