PointRGCN : Réseaux de convolution de graphes pour le raffinement de la détection de véhicules 3D

Dans les chaînes de traitement de conduite autonome, les modules de perception fournissent une compréhension visuelle de la scène routière environnante. Parmi les tâches de perception, la détection de véhicules revêt une importance capitale pour garantir une conduite sécurisée, car elle permet d’identifier la position des autres agents partageant la route. Dans notre travail, nous proposons PointRGCN : une chaîne de détection d’objets 3D fondée sur les réseaux de convolution de graphes (GCNs), qui opère exclusivement sur des nuages de points 3D provenant de capteurs LiDAR. Pour améliorer la précision de la détection 3D, nous exploitons une représentation par graphe permettant l’agrégation des caractéristiques des propositions et des informations contextuelles. Nous intégrons des GCNs résiduels dans une architecture à deux étapes pour la détection d’objets 3D, où les propositions d’objets 3D sont affinées grâce à une nouvelle représentation par graphe. Plus précisément, R-GCN est un GCN résiduel chargé de classifier et de régresser les propositions 3D, tandis que C-GCN est un GCN contextuel qui affine davantage ces propositions en partageant des informations contextuelles entre plusieurs propositions. Nous avons intégré nos modules d’affinement dans une nouvelle chaîne de détection 3D, PointRGCN, et obtenu des performances de pointe sur la difficulté facile pour la tâche de détection vue oiseau.