DiPE : Une exploration approfondie des erreurs photométriques pour l'apprentissage non supervisé de la profondeur et du mouvement propre à partir de vidéos monoculaires

L’apprentissage non supervisé de la profondeur et du mouvement propre à partir de vidéos monoculaires non étiquetées a récemment suscité un grand intérêt, car il permet d’éviter l’utilisation de vérités terrain coûteuses dans les approches supervisées. Cette méthode repose sur l’erreur photométrique entre la vue cible et les vues synthétisées à partir des vues sources adjacentes, utilisée comme fonction de perte. Malgré des progrès significatifs, l’apprentissage reste sujet aux problèmes d’occlusion et de dynamique scénique. Ce papier démontre que la manipulation soigneuse des erreurs photométriques permet de mieux surmonter ces difficultés. L’amélioration principale repose sur une technique statistique capable de masquer les pixels invisibles ou non stationnaires dans la carte d’erreur photométrique, empêchant ainsi de guider erronément le réseau. Grâce à cette approche de masquage des valeurs aberrantes, la profondeur des objets se déplaçant dans la direction opposée à celle de la caméra peut être estimée de manière plus précise. À notre connaissance, de tels scénarios n’ont pas été sérieusement pris en compte dans les travaux antérieurs, bien qu’ils présentent un risque accru dans des applications telles que la conduite autonome. Nous proposons également un schéma efficace à poids multi-échelle pour réduire les artefacts présents dans les cartes de profondeur prédites. Des expériences étendues sur le jeu de données KITTI montrent l’efficacité des approches proposées. Le système global atteint une performance de pointe dans l’estimation à la fois de la profondeur et du mouvement propre.