VoxelNeXt : VoxelNet entièrement épars pour la détection et le suivi d'objets 3D

Les détecteurs d’objets 3D reposent généralement sur des proxies conçus à la main, tels que des ancres ou des centres, et transposent ainsi des cadres bien étudiés en 2D vers le domaine 3D. Par conséquent, les caractéristiques volumétriques creuses doivent être densifiées et traitées par des têtes de prédiction denses, ce qui entraîne inévitablement une surcharge computationnelle supplémentaire. Dans cet article, nous proposons au contraire VoxelNext, un détecteur d’objets 3D entièrement creux. Notre idée centrale consiste à prédire directement les objets à partir des caractéristiques volumétriques creuses, sans recourir à des proxies conçus à la main. Notre réseau convolutif creux puissant, VoxelNeXt, détecte et suit les objets 3D exclusivement à partir de caractéristiques volumétriques. Il s’agit d’un cadre élégant et efficace, ne nécessitant ni conversion creux-dense ni post-traitement par NMS. Notre méthode atteint un meilleur compromis entre vitesse et précision par rapport aux autres détecteurs principaux sur le jeu de données nuScenes. Pour la première fois, nous démontrons qu’une représentation entièrement creuse basée sur des voxels est efficace pour la détection et le suivi d’objets 3D à partir de données LIDAR. Des expériences étendues sur les benchmarks nuScenes, Waymo et Argoverse2 valident l’efficacité de notre approche. Sans recourir à des améliorations superflues, notre modèle surpassent toutes les méthodes LIDAR existantes sur le benchmark de suivi nuScenes.