SVGA-Net : Réseau d'attention graphe-volée creuse pour la détection d'objets 3D à partir de nuages de points

La détection 3D précise d’objets à partir de nuages de points est devenue un élément essentiel dans les systèmes de conduite autonome. Toutefois, les représentations volumétriques et les méthodes de projection utilisées dans les travaux antérieurs échouent à établir des relations entre les ensembles locaux de points. Dans cet article, nous proposons SVGA-Net, un nouveau réseau entraînable end-to-end, principalement composé d’un module de graphe-volvox et d’un module de régression creux-vers-dense, permettant d’atteindre des performances comparables en détection 3D à partir de données brutes de LIDAR. Plus précisément, SVGA-Net construit un graphe complet local à l’intérieur de chaque voxel sphérique 3D divisé, ainsi qu’un graphe global KNN basé sur l’ensemble des voxels. Ces graphes local et global agissent comme mécanismes d’attention afin d’améliorer les caractéristiques extraites. Par ailleurs, le nouveau module de régression creux-vers-dense améliore la précision de l’estimation des boîtes 3D grâce à une agrégation des cartes de caractéristiques à différents niveaux. Les expériences sur le benchmark de détection KITTI démontrent l’efficacité de l’extension de la représentation par graphe à la détection d’objets 3D, et montrent que SVGA-Net atteint une précision de détection satisfaisante.