HyperAIHyperAI
il y a 4 mois

GPSFormer : Un Transformers basé sur la perception globale et l'ajustement de la structure locale pour la compréhension des nuages de points

Wang, Changshuo ; Wu, Meiqing ; Lam, Siew-Kei ; Ning, Xin ; Yu, Shangshu ; Wang, Ruiping ; Li, Weijun ; Srikanthan, Thambipillai
GPSFormer : Un Transformers basé sur la perception globale et l'ajustement de la structure locale pour la compréhension des nuages de points
Résumé

Malgré les avancées significatives dans les méthodes de pré-entraînement pour la compréhension des nuages de points, capturer directement des informations de forme complexes à partir de nuages de points irréguliers sans dépendre de données externes reste un défi considérable. Pour résoudre ce problème, nous proposons GPSFormer, un Transformer innovant basé sur la perception globale et l'ajustement de structure locale, qui apprend des informations de forme détaillées à partir des nuages de points avec une précision remarquable. Le cœur de GPSFormer est constitué du module de Perception Globale (GPM) et de la convolution d'Ajustement de Structure Locale (LSFConv). Plus précisément, le GPM utilise la convolution graphique adaptable déformable (ADGConv) pour identifier les dépendances à court terme entre les caractéristiques similaires dans l'espace des caractéristiques et emploie l'attention multi-têtes (MHA) pour apprendre les dépendances à long terme entre toutes les positions dans l'espace des caractéristiques, permettant ainsi un apprentissage flexible des représentations contextuelles. Inspirés par la série de Taylor, nous avons conçu LSFConv, qui apprend à la fois des informations fondamentales d'ordre inférieur et des informations d'affinement d'ordre supérieur à partir des structures géométriques locales explicitement codées. En intégrant le GPM et LSFConv comme composants fondamentaux, nous construisons GPSFormer, un Transformer de pointe capable d'effectivement capturer les structures globales et locales des nuages de points. De nombreuses expériences valident l'efficacité de GPSFormer dans trois tâches liées aux nuages de points : classification de formes, segmentation par parties et apprentissage par quelques exemples. Le code source de GPSFormer est disponible à l'adresse \url{https://github.com/changshuowang/GPSFormer}.