Approfondissement de l'estimation de profondeur intérieure monocablée auto-supervisée

L’estimation de la profondeur à partir d’une seule caméra en utilisant des réseaux de neurones convolutifs (CNN) a démontré des performances remarquables dans les scènes routières extérieures. Toutefois, l’apprentissage auto-supervisé de la profondeur en intérieur à partir de séquences monoculars reste un défi majeur pour les chercheurs, principalement en raison de deux facteurs. Premièrement, les zones à faible texture occupent de grandes surfaces dans les environnements intérieurs, et deuxièmement, les mouvements propres (ego-motion) complexes observés dans les jeux de données d’entraînement intérieurs rendent l’apprentissage plus difficile. Dans ce travail, nous proposons une méthode innovante, nommée IndoorDepth, fondée sur deux améliorations majeures. En premier lieu, nous introduisons une nouvelle fonction de perte photométrique basée sur une amélioration de la fonction de similarité structurelle (SSIM), conçue pour mieux traiter les régions à faible texture. Ensuite, afin de réduire davantage l’erreur de prédiction du mouvement propre, nous utilisons plusieurs pertes photométriques à différentes étapes de traitement pour entraîner un réseau de pose plus profond, composé de deux blocs résiduels de pose. Une étude ablation ultérieure permet de valider l’efficacité de chacune de ces innovations. Des expériences réalisées sur le benchmark NYUv2 montrent que notre méthode IndoorDepth surpasser largement les approches précédemment les plus performantes. En outre, nous évaluons également la capacité de généralisation de notre méthode sur le jeu de données ScanNet. Le code source est disponible à l’adresse suivante : https://github.com/fcntes/IndoorDepth.