LSK3DNet : Vers une perception 3D efficace et performante grâce à de grands noyaux creux

Les systèmes autonomes doivent traiter des nuages de points volumineux, creux et irréguliers, tout en disposant de ressources informatiques limitées. Il est donc essentiel de développer des méthodes de perception LiDAR à la fois efficaces et performantes. Bien qu’un agrandissement naïf de la taille du noyau 3D puisse améliorer les performances, il entraîne également une augmentation cubique de la charge computationnelle. Il est donc crucial de concevoir des architectures de grands noyaux 3D optimisées, capables d’éliminer les poids redondants tout en maintenant une efficacité élevée avec des noyaux étendus. Dans cet article, nous proposons un réseau neuronal 3D efficace et performant, nommé LSK3DNet (Large Sparse Kernel 3D Neural Network), qui exploite une élagage dynamique pour amplifier la taille du noyau 3D. Notre méthode repose sur deux composants clés : la Sparsité Dynamique Par Espace (SDS) et la Sélection Dynamique des Poids Par Canal (CWS). La SDS élague et régénère dynamiquement les poids volumétriques dès le début de l’entraînement, afin d’apprendre un grand noyau 3D creux. Cette approche améliore non seulement les performances, mais réduit également de manière significative la taille du modèle et le coût computationnel. Par ailleurs, la CWS sélectionne les canaux les plus pertinents pour la convolution 3D pendant l’entraînement, puis élimine les canaux redondants afin d’accélérer l’inférence dans les tâches de vision 3D. Nous démontrons l’efficacité de LSK3DNet sur trois jeux de données standard et cinq pistes, en le comparant à des modèles classiques et à d’autres architectures à grands noyaux. Notamment, LSK3DNet atteint des performances de pointe sur SemanticKITTI (75,6 % pour une seule acquisition et 63,4 % pour plusieurs acquisitions), tout en réduisant d’environ 40 % la taille du modèle et de 60 % le nombre d’opérations computationnelles par rapport à un modèle naïf à grand noyau 3D.