SCIPaD : Intégration d'indices spatiaux dans l'apprentissage conjoint non supervisé de pose et de profondeur

Les cadres d'estimation de profondeur monoscopique non supervisée ont montré des performances prometteuses dans le domaine du pilotage automatisé. Toutefois, les solutions existantes reposent principalement sur un réseau neuronal convolutif simple pour la récupération du mouvement propre (ego-motion), ce qui se révèle insuffisant pour estimer précisément les poses de caméra dans des scénarios réels dynamiques et complexes. Ces estimations erronées des poses de caméra entraînent inévitablement une dégradation de la reconstruction photométrique et induisent en erreur les réseaux d'estimation de profondeur en leur fournissant des signaux de supervision incorrects. Dans cet article, nous introduisons SCIPaD, une nouvelle approche qui intègre des indices spatiaux pour l'apprentissage conjoint non supervisé de la profondeur et de la pose. Plus précisément, nous proposons un estimateur de flux de caractéristiques conscient de la confiance, capable d’obtenir les translations 2D des caractéristiques et leurs niveaux associés de confiance. Parallèlement, nous introduisons un agrégateur d’indices positionnels, qui combine des nuages de points pseudo-3D issus de DepthNet et les flux de caractéristiques 2D en représentations positionnelles homogènes. Enfin, nous proposons un injecteur d’encodage positionnel hiérarchique, conçu pour injecter sélectivement des indices spatiaux dans les caractéristiques sémantiques afin d’assurer une décodage robuste des poses de caméra. Des expériences et analyses étendues démontrent la supériorité de notre modèle par rapport aux méthodes de pointe existantes. Notamment, SCIPaD réduit de 22,2 % l’erreur moyenne de translation et de 34,8 % l’erreur moyenne angulaire pour la tâche d’estimation de pose de caméra sur le jeu de données KITTI Odometry. Le code source de notre travail est disponible à l’adresse suivante : \url{https://mias.group/SCIPaD}.