Voxel R-CNN : Vers une détection d'objets 3D basée sur les voxels à haute performance

Les progrès récents dans la détection d'objets 3D reposent fortement sur la manière dont les données 3D sont représentées, à savoir sous forme de voxels ou de points. De nombreux détecteurs 3D à haute performance actuels sont basés sur des points, car cette structure permet de mieux préserver les positions précises des points. Toutefois, les caractéristiques au niveau des points entraînent des surcharges computationnelles importantes en raison du stockage non ordonné. À l'inverse, la représentation par voxels est plus adaptée à l'extraction de caractéristiques, mais elle conduit souvent à une précision inférieure, car les données d'entrée sont divisées en grilles. Dans cet article, nous adoptons une perspective légèrement différente : nous constatons que la précision de la position des points bruts n'est pas essentielle pour atteindre une détection 3D performante, et que la granularité grossière des voxels peut également offrir une précision suffisante pour la détection. En gardant cette idée à l'esprit, nous proposons un cadre simple mais efficace basé sur les voxels, nommé Voxel R-CNN. En exploitant pleinement les caractéristiques des voxels dans une approche en deux étapes, notre méthode atteint une précision de détection comparable à celle des modèles point-based les plus performants, tout en nécessitant une fraction du coût computationnel. Voxel R-CNN se compose d'un réseau principal 3D, d'un réseau de proposition de régions (Region Proposal Network) en vue de dessus (bird-eye-view, BEV) 2D et d'une tête de détection. Nous introduisons une opération de pooling de régions d'intérêt (RoI pooling) sur voxels, permettant d'extraire directement les caractéristiques des régions d'intérêt à partir des caractéristiques de voxels pour une meilleure raffinement. Des expériences abondantes ont été menées sur le dataset KITTI largement utilisé ainsi que sur le plus récent dataset Waymo Open Dataset. Nos résultats montrent que, par rapport aux méthodes basées sur les voxels existantes, Voxel R-CNN offre une meilleure précision de détection tout en maintenant un débit en temps réel, soit une fréquence de 25 images par seconde (FPS) sur une GPU NVIDIA RTX 2080 Ti. Le code source est disponible à l'adresse suivante : \url{https://github.com/djiajunustc/Voxel-R-CNN}.