PV-RCNN++ : Abstraction de caractéristiques point-voxel avec représentation vectorielle locale pour la détection d'objets 3D

La détection d'objets 3D attire un intérêt croissant tant de la part de l’industrie que de la recherche académique, en raison de ses nombreuses applications dans divers domaines. Dans cet article, nous proposons les réseaux neuronaux à convolution basés sur les régions par points et voxels (PV-RCNN), une nouvelle approche pour la détection d’objets 3D sur des nuages de points. Premièrement, nous introduisons un détecteur 3D novateur, le PV-RCNN, qui améliore significativement les performances de détection 3D grâce à une intégration approfondie des caractéristiques apprises par abstraction de jeux de points et par convolution creuse basée sur les voxels, réalisée via deux nouvelles étapes : l’encodage scénique voxel-to-keypoint et l’abstraction des caractéristiques RoI keypoint-to-grid. Deuxièmement, nous proposons un cadre avancé, le PV-RCNN++, pour une détection 3D plus efficace et plus précise. Ce cadre repose sur deux améliorations majeures : un échantillonnage centré sur les propositions sectorisées, permettant de générer efficacement des points-clés plus représentatifs, et une aggregation VectorPool, qui permet une meilleure fusion des caractéristiques locales des points tout en consommant bien moins de ressources. Grâce à ces deux stratégies, le PV-RCNN++ est environ trois fois plus rapide que le PV-RCNN, tout en atteignant des performances supérieures. Les expériences montrent que notre cadre PV-RCNN++ atteint des performances de détection 3D de pointe sur le grand jeu de données compétitif Waymo Open Dataset, avec une vitesse de détection de 10 FPS sur une zone de détection de 150 m × 150 m.