Progresser l'apprentissage auto-supervisé de la profondeur monoculaire grâce au LiDAR épars

La prédiction de profondeur monoscopique auto-supervisée offre une solution économique pour obtenir la position 3D de chaque pixel. Toutefois, les approches existantes conduisent généralement à une précision insatisfaisante, ce qui est critique pour les robots autonomes. Dans cet article, nous proposons FusionDepth, un nouveau réseau en deux étapes, visant à améliorer l'apprentissage auto-supervisé de la profondeur dense à partir d'une image monoscopique en exploitant des capteurs LiDAR épars à faible coût (par exemple, à 4 faisceaux). Contrairement aux méthodes existantes qui utilisent principalement le LiDAR épars de manière itérative et coûteuse en temps, notre modèle fusionne les caractéristiques d'image monoscopique et celles du LiDAR épars afin de prédire des cartes de profondeur initiales. Ensuite, un réseau de révision efficace en mode feed-forward est conçu pour corriger les erreurs présentes dans ces cartes initiales dans un espace pseudo-3D, tout en garantissant une performance en temps réel. Des expériences étendues montrent que notre modèle surpassent significativement toutes les méthodes de l'état de l'art basées sur l'auto-supervision, ainsi que les méthodes fondées sur le LiDAR épars, tant pour les tâches de prédiction de profondeur monoscopique auto-supervisée que pour celles de complétion de profondeur. Grâce à une prédiction dense de profondeur précise, notre modèle dépasse de plus de 68 % la méthode de l'état de l'art basée sur le LiDAR épars (Pseudo-LiDAR++) pour la tâche descendante de détection 3D monoscopique sur le classement KITTI. Le code est disponible à l'adresse suivante : https://github.com/AutoAILab/FusionDepth