HyperAIHyperAI
il y a 11 jours

Point Transformer V2 : attente vectorielle regroupée et pooling basé sur la partition

Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao
Point Transformer V2 : attente vectorielle regroupée et pooling basé sur la partition
Résumé

En tant qu’œuvre pionnière explorant l’architecture Transformer pour la compréhension des nuages de points 3D, Point Transformer obtient des résultats remarquables sur plusieurs benchmarks très compétitifs. Dans ce travail, nous analysons les limites de Point Transformer et proposons un modèle puissant et efficace, Point Transformer V2, doté de nouvelles architectures permettant de surmonter les défauts des approches antérieures. En particulier, nous introduisons d’abord l’attention vectorielle par groupes, qui s’avère plus efficace que la version précédente de l’attention vectorielle. En combinant les avantages des encodages par poids apprenables et de l’attention à plusieurs têtes, nous proposons une implémentation hautement efficace de l’attention vectorielle par groupes, fondée sur une nouvelle couche d’encodage par poids groupés. Nous renforçons également l’information de position dans l’attention grâce à un multiplicateur d’encodage de position supplémentaire. En outre, nous concevons de nouvelles méthodes de pooling basées sur une partition légère et innovante, permettant une meilleure alignement spatial et un échantillonnage plus efficace. Des expériences étendues montrent que notre modèle surpasser les performances de sa prédécesseur et atteint l’état de l’art sur plusieurs benchmarks exigeants de compréhension des nuages de points 3D, notamment la segmentation de nuages de points 3D sur ScanNet v2 et S3DIS, ainsi que la classification de nuages de points 3D sur ModelNet40. Le code sera disponible à l’adresse suivante : https://github.com/Gofinge/PointTransformerV2.