GCNDepth : Estimation auto-supervisée de la profondeur monoculaire basée sur un réseau de convolution de graphe

L'estimation de profondeur constitue une tâche complexe dans le cadre de la reconstruction 3D, visant à améliorer la précision de la perception environnementale. Ce travail propose une nouvelle solution fondée sur une série d'améliorations, permettant une compréhension quantitative et qualitative des cartes de profondeur supérieure à celle des méthodes existantes. Récemment, les réseaux de neurones convolutifs (CNN) ont démontré une capacité exceptionnelle à estimer les cartes de profondeur à partir de vidéos monoculaires. Toutefois, les CNN traditionnels ne prennent pas en compte la structure topologique et ne peuvent traiter que des régions d’image régulières de taille et de poids prédéfinis. À l’inverse, les réseaux de neurones graphes (GCN) permettent d’effectuer des convolutions sur des données non euclidiennes et peuvent être appliqués à des régions d’image irrégulières au sein d’une structure topologique. Ainsi, dans ce travail, afin de préserver les apparences géométriques et les distributions des objets, nous proposons d’exploiter les GCN dans un modèle d’estimation auto-supervisée de profondeur. Notre modèle repose sur deux auto-encodeurs parallèles : le premier est un auto-encodeur basé sur ResNet-50, qui extrait les caractéristiques de l’image d’entrée et utilise un GCN à multiples échelles pour estimer la carte de profondeur ; le second réseau est utilisé pour estimer le vecteur d’ego-mouvement (c’est-à-dire la pose 3D) entre deux cadres consécutifs, en s’appuyant sur ResNet-18. Les estimations de pose 3D et de carte de profondeur sont ensuite combinées pour reconstruire une image cible. Une combinaison de fonctions de perte liées à la photométrie, à la projection et à la régularité est employée afin de gérer les prédictions de profondeur erronées tout en préservant les discontinuités des objets. En particulier, notre méthode obtient des résultats comparables et prometteurs, avec une précision de prédiction atteignant 89 % sur les jeux de données publics KITTI et Make3D, tout en réduisant de 40 % le nombre de paramètres entraînables par rapport aux solutions de pointe. Le code source est disponible publiquement à l’adresse suivante : https://github.com/ArminMasoumian/GCNDepth.git