Détection monocabulaire 3D d'objets consciente du sol pour la conduite autonome

Estimer la position et l’orientation en 3D des objets dans l’environnement à l’aide d’une seule caméra RGB constitue une tâche cruciale et difficile pour les véhicules autonomes urbains à faible coût et les robots mobiles. La plupart des algorithmes existants s’appuient sur des contraintes géométriques issues de la correspondance 2D-3D, qui proviennent de l’estimation générique de la pose 6D des objets. Nous identifions tout d’abord comment le plan de sol fournit des indices supplémentaires pour le raisonnement en profondeur dans la détection 3D dans les scènes de conduite. À partir de cette observation, nous améliorons le traitement des ancres 3D et introduisons un nouveau module de réseau neuronal afin d’exploiter pleinement ces priori spécifiques à l’application dans le cadre d’un apprentissage profond. Enfin, nous proposons un réseau neuronal efficace intégrant ce module proposé pour la détection d’objets 3D. Nous vérifions également la puissance du module proposé à l’aide d’un réseau neuronal conçu pour la prédiction de profondeur monocablée. Les deux réseaux proposés atteignent des performances de pointe sur les benchmarks KITTI pour la détection d’objets 3D et la prédiction de profondeur, respectivement. Le code source sera publié à l’adresse suivante : https://www.github.com/Owen-Liuyuxuan/visualDet3D