(AF)²-S3Net : Fusion de caractéristiques attentives avec sélection adaptative des caractéristiques pour un réseau de segmentation sémantique creuse

Les systèmes robotiques autonomes et les véhicules à conduite autonome dépendent d’une perception précise de leur environnement, la sécurité des passagers et des piétons étant la priorité absolue. La segmentation sémantique constitue l’un des composants essentiels de la perception environnementale, fournissant des informations sémantiques sur la scène. Récemment, plusieurs méthodes ont été proposées pour la segmentation sémantique 3D à partir de capteurs LiDAR. Bien qu’elles permettent d’améliorer les performances, elles souffrent soit d’une complexité computationnelle élevée, rendant leurs implémentations inefficaces, soit d’un manque de détails fins pour les instances plus petites. Pour atténuer ce problème, nous proposons AF2-S3Net, un réseau CNN encodage-décodage end-to-end dédié à la segmentation sémantique 3D LiDAR. Nous introduisons un nouveau module d’agrégation de caractéristiques attentives à plusieurs branches dans l’encodeur, ainsi qu’un module original de sélection adaptative des caractéristiques accompagné d’un réajustement des cartes de caractéristiques dans le décodeur. AF2-S3Net intègre de manière unifiée l’apprentissage basé sur des voxels et l’apprentissage basé sur des points, permettant ainsi un traitement efficace de scènes 3D volumineuses. Nos résultats expérimentaux montrent que la méthode proposée surpasser les approches les plus avancées sur le benchmark à grande échelle SemanticKITTI, occupant la première place sur le classement public compétitif au moment de la publication.