Complétion de profondeur non supervisée à partir de l'odométrie visuo-inertielle

Nous décrivons une méthode permettant d'inférer une profondeur dense à partir du mouvement de la caméra et d'une profondeur éparse estimée en utilisant un système d'odométrie visuelle-inertielle. Contrairement aux scénarios utilisant des nuages de points provenant de lidars ou de capteurs à lumière structurée, nous disposons de quelques centaines à quelques milliers de points, ce qui est insuffisant pour informer la topologie de la scène. Notre méthode construit d'abord un échafaudage plan par morceaux de la scène, puis l'utilise pour inférer une profondeur dense en combinant l'image avec les points épars. Nous utilisons un critère prédictif intermodal, similaire à l'« auto-supervision », mesurant la cohérence photométrique dans le temps, la cohérence des poses avant-arrière et la compatibilité géométrique avec le nuage de points éparse. Nous lançons également le premier jeu de données visuel-inertiel + profondeur, que nous espérons favoriser des explorations supplémentaires sur la combinaison des forces complémentaires des capteurs visuels et inertiels. Pour comparer notre méthode aux travaux antérieurs, nous adoptons le benchmark KITTI non supervisé pour l'achèvement de la profondeur, et montrons des performances d'état de l'art dessus. Le code est disponible à : https://github.com/alexklwong/unsupervised-depth-completion-visual-inertial-odometry.