Détection d'objets 3D basée sur Stereo R-CNN pour la conduite autonome

Nous proposons une méthode de détection d'objets 3D pour la conduite autonome en exploitant pleinement les informations sémantiques et géométriques, ainsi que les informations éparse et dense dans les images stéréoscopiques. Notre méthode, appelée Stereo R-CNN, étend Faster R-CNN aux entrées stéréoscopiques afin de détecter et d'associer simultanément des objets dans les images de gauche et de droite. Nous ajoutons des branches supplémentaires après le réseau de proposition de régions stéréoscopique (RPN) pour prédire des points clés éparse, des points de vue et des dimensions d'objets, qui sont combinés avec les boîtes englobantes 2D gauche-droite pour calculer une boîte englobante 3D grossière. Nous récupérons ensuite la boîte englobante 3D précise par un alignement photométrique basé sur des régions en utilisant les RoIs (Region of Interest) gauche et droite. Notre méthode ne nécessite pas d'entrée de profondeur ni de supervision de position 3D, mais elle surpass néanmoins toutes les méthodes existantes entièrement supervisées basées sur l'image. Les expériences menées sur le jeu de données KITTI montrent que notre méthode dépasse la méthode stéréoscopique actuelle de l'état de l'art d'environ 30 % AP (Average Precision) dans les tâches de détection 3D et de localisation 3D. Le code est disponible à l'adresse suivante : https://github.com/HKUST-Aerial-Robotics/Stereo-RCNN.