Normalisation hiérarchique pour une estimation monocabulaire de profondeur robuste

Dans cet article, nous abordons l’estimation de la profondeur à partir d’une seule vue à l’aide de réseaux neuronaux profonds. Afin de permettre l’entraînement de modèles d’estimation monoscopique profonds à partir de diverses sources de données, les méthodes de pointe adoptent des stratégies de normalisation au niveau de l’image pour générer des représentations de profondeur invariantes par affinité. Toutefois, l’apprentissage basé sur une normalisation au niveau de l’image met principalement l’accent sur les relations entre les représentations des pixels et les statistiques globales présentes dans les images, telles que la structure de la scène, au détriment des différences de profondeur à petite échelle. Dans cet article, nous proposons une nouvelle méthode de normalisation de profondeur multi-échelle qui normalise hiérarchiquement les représentations de profondeur en s’appuyant sur des informations spatiales et sur les distributions de profondeur. Contrairement aux stratégies de normalisation antérieures appliquées uniquement au niveau global de l’image, la normalisation hiérarchique proposée permet efficacement de préserver les détails fins et d’améliorer la précision. Nous présentons deux stratégies distinctes définissant les contextes de normalisation hiérarchique respectivement dans le domaine de la profondeur et dans le domaine spatial. Nos expériences étendues montrent que la stratégie de normalisation proposée surpasse significativement les méthodes antérieures, établissant ainsi un nouveau record sur cinq jeux de données de benchmark de transfert zéro-shot.