VoxelNet : Apprentissage de bout en bout pour la détection d'objets 3D basée sur les nuages de points

La détection précise d'objets dans des nuages de points 3D est un problème central dans de nombreuses applications, telles que la navigation autonome, les robots ménagers et la réalité augmentée/virtuelle. Pour interfacer un nuage de points LiDAR très éparse avec un réseau de proposition de régions (RPN), la plupart des efforts existants se sont concentrés sur des représentations de caractéristiques conçues manuellement, par exemple une projection en vue d'oiseau. Dans ce travail, nous supprimons la nécessité d'un ingénierie manuelle des caractéristiques pour les nuages de points 3D et proposons VoxelNet, un réseau de détection 3D générique qui unifie l'extraction de caractéristiques et la prédiction des boîtes englobantes en une seule étape, dans un réseau profond entièrement entraînable. Plus précisément, VoxelNet divise un nuage de points en voxels 3D espacés uniformément et transforme un groupe de points au sein de chaque voxel en une représentation de caractéristiques unifiée grâce à une nouvelle couche d'encodage des caractéristiques voxel (VFE). De cette manière, le nuage de points est encodé sous forme d'une représentation volumique descriptive, qui est ensuite connectée à un RPN pour générer des détections. Les expériences menées sur le banc d'essai KITTI pour la détection de voitures montrent que VoxelNet surpass largement les méthodes actuelles basées sur LiDAR pour la détection 3D. De plus, notre réseau apprend une représentation discriminante efficace des objets présentant diverses géométries, conduisant à des résultats encourageants dans la détection 3D de piétons et cyclistes, uniquement à partir du LiDAR.