il y a 2 mois

Cloud de Points Mamba : Apprentissage sur les Nuages de Points par Modèle d'État-Espace

Tao Zhang; Haobo Yuan; Lu Qi; Jiangning Zhang; Qianyu Zhou; Shunping Ji; Shuicheng Yan; Xiangtai Li

Résumé

Récemment, les modèles d'espace d'état ont démontré de fortes capacités de modélisation globale et une complexité de calcul linéaire, en contraste avec les transformateurs. Cette recherche se concentre sur l'application de cette architecture pour modéliser plus efficacement et de manière plus performante les données de nuages de points globalement, tout en maintenant une complexité de calcul linéaire. Plus particulièrement, nous montrons pour la première fois que les méthodes basées sur Mamba peuvent surpasser les méthodes précédentes fondées sur des transformeurs ou des perceptrons multicouches (MLPs). Pour permettre à Mamba de traiter les données de nuages de points 3D plus efficacement, nous proposons une nouvelle méthode de sérialisation par parcours cohérent (Consistent Traverse Serialization) qui convertit les nuages de points en séquences ponctuelles unidimensionnelles tout en garantissant que les points voisins dans la séquence sont également voisins spatialement. La sérialisation par parcours cohérent génère six variantes en permutant l'ordre des coordonnées \textit{x}, \textit{y} et \textit{z}, et l'utilisation synergieuse de ces variantes aide Mamba à observer les données des nuages de points de manière plus complète. De plus, pour aider Mamba à gérer plus efficacement des séquences ponctuelles avec différents ordres, nous introduisons des prompts ponctuels pour informer Mamba des règles d'arrangement de la séquence. Enfin, nous proposons une codification positionnelle basée sur le mappage des coordonnées spatiales pour injecter des informations positionnelles dans les séquences des nuages de points plus efficacement. Point Cloud Mamba dépasse la méthode basée sur les points la plus avancée (state-of-the-art, SOTA) PointNeXt et atteint une nouvelle performance SOTA sur les jeux de données ScanObjectNN, ModelNet40, ShapeNetPart et S3DIS. Il est important de noter que lorsque nous utilisons un module d'extraction locale des caractéristiques plus puissant, notre PCM atteint un mIoU (mean Intersection over Union) de 79,6 % sur S3DIS, surpassant significativement les modèles SOTA précédents DeLA et PTv3 avec un gain respectif de 5,5 mIoU et 4,9 mIoU.