MKConv : Représentation multidimensionnelle des caractéristiques pour l'analyse de nuages de points

Malgré les succès remarquables de l’apprentissage profond, une opération de convolution optimale sur les nuages de points reste difficile à atteindre en raison de leur structure de données irrégulière. Les méthodes existantes se concentrent principalement sur la conception d’une fonction de noyau continue efficace capable de traiter un point arbitraire dans l’espace continu. De nombreuses approches présentant de hautes performances ont été proposées, mais nous observons que les caractéristiques ponctuelles standard sont représentées par des canaux unidimensionnels et peuvent devenir plus informatives lorsque leur représentation intègre des dimensions supplémentaires de caractéristiques spatiales. Dans cet article, nous présentons une nouvelle opération de convolution, appelée Multidimensional Kernel Convolution (MKConv), qui apprend à transformer la représentation des caractéristiques des points d’un vecteur vers une matrice multidimensionnelle. Contrairement à la convolution ponctuelle classique, MKConv procède en deux étapes. (i) Elle active d’abord les dimensions spatiales de la représentation locale des caractéristiques en exploitant des poids de noyau multidimensionnels. Ces caractéristiques étendues spatialement peuvent exprimer leurs informations intégrées grâce à la corrélation spatiale ainsi qu’à la corrélation entre canaux dans l’espace des caractéristiques, transmettant ainsi des informations plus détaillées sur la structure locale. (ii) Ensuite, des convolutions discrètes sont appliquées aux caractéristiques multidimensionnelles, qui peuvent être considérées comme une matrice structurée en grille. Ainsi, nous pouvons exploiter les convolutions discrètes sur les données de nuages de points sans recourir à une voxélisation, qui entraîne une perte d’information. En outre, nous proposons un module d’attention spatiale, appelé Multidimensional Local Attention (MLA), qui renforce la prise de conscience structurale au sein d’un voisinage local en réajustant les poids des dimensions de caractéristiques spatiales. Nous démontrons que MKConv présente une excellente adaptabilité aux tâches de traitement des nuages de points, notamment la classification d’objets, la segmentation des parties d’objets et la segmentation sémantique de scènes, obtenant des résultats supérieurs.