Amélioration de l’estimation de profondeur monoscopique 360° grâce à un Transformateur de Prédiction Dense Non-local et à un Apprentissage Supervisé et Auto-supervisé Conjoints

En raison des difficultés rencontrées dans l’acquisition de la profondeur réelle (ground truth) pour les images équirectangulaires (360°), la qualité et la quantité des données de profondeur disponibles aujourd’hui sont insuffisantes pour représenter la diversité des scènes mondiales. Par conséquent, les méthodes de estimation de profondeur 360° fondées exclusivement sur l’apprentissage supervisé sont vouées à produire des résultats insatisfaisants. Bien que des méthodes d’apprentissage auto-supervisé spécifiquement conçues pour les images équirectangulaires (EIs) aient été proposées, elles souffrent souvent de solutions incorrectes ou non uniques, entraînant une instabilité des performances. Dans ce travail, nous proposons des méthodes d’estimation de profondeur monoscopique 360° améliorant les limites des études antérieures. Premièrement, nous introduisons une méthode d’apprentissage auto-supervisé pour la profondeur 360° qui n’utilise que des vidéos alignées selon la direction de la gravité, offrant ainsi le potentiel d’éliminer tout besoin de données de profondeur durant l’entraînement. Deuxièmement, nous proposons un schéma d’apprentissage conjoint, combinant apprentissage supervisé et auto-supervisé, où les faiblesses de chaque approche sont compensées, conduisant à une estimation de profondeur plus précise. Troisièmement, nous introduisons un bloc de fusion non-local, capable de préserver efficacement les informations globales encodées par le modèle vision transformer lors de la reconstruction des cartes de profondeur. Grâce à ces méthodes, nous parvenons, à notre connaissance, pour la première fois à appliquer de manière efficace les transformateurs aux estimations de profondeur 360°. Sur plusieurs benchmarks, notre approche obtient des améliorations significatives par rapport aux méthodes antérieures et établit un état de l’art.