Réseau de détection d'objets 3D multi-vues pour la conduite autonome

Ce travail vise à détecter des objets 3D avec une haute précision dans le contexte de la conduite autonome. Nous proposons les réseaux Multi-View 3D (MV3D), un cadre de fusion sensorielle qui prend en entrée à la fois un nuage de points LIDAR et des images RGB pour prédire des boîtes englobantes 3D orientées. Nous codons le nuage de points 3D épars avec une représentation multi-vue compacte. Le réseau est composé de deux sous-réseaux : l'un pour la génération de propositions d'objets 3D et l'autre pour la fusion de caractéristiques multi-vue. Le réseau de proposition génère efficacement des boîtes candidates 3D à partir de la représentation vue du dessus du nuage de points 3D. Nous concevons un schéma de fusion profonde pour combiner les caractéristiques régionales provenant de plusieurs vues et permettre des interactions entre les couches intermédiaires des différents chemins. Les expériences menées sur le banc d'essai KITTI, connu pour sa difficulté, montrent que notre approche dépasse l'état de l'art d'environ 25 % et 30 % AP dans les tâches de localisation 3D et de détection 3D. De plus, pour la détection 2D, notre approche obtient une AP supérieure de 10,3 % à celle de l'état de l'art sur les données difficiles parmi les méthodes basées sur LIDAR.