HyperAIHyperAI
il y a 17 jours

ConDaFormer : Transformer désassemblé avec amélioration de la structure locale pour la compréhension des nuages de points 3D

Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Gui-Song Xia, Dacheng Tao
ConDaFormer : Transformer désassemblé avec amélioration de la structure locale pour la compréhension des nuages de points 3D
Résumé

Les Transformers ont récemment été explorés pour la compréhension des nuages de points 3D, avec des progrès remarquables. Le grand nombre de points — dépassant 100 000 — rend l'attention globale inapplicable pour les données de nuages de points. Par conséquent, la plupart des méthodes proposent d'appliquer le Transformer dans une région locale, par exemple à l'intérieur d'une fenêtre sphérique ou cubique. Toutefois, cette approche conserve encore un nombre important de paires Query-Key, entraînant des coûts computationnels élevés. De plus, les méthodes antérieures apprennent généralement les Query, Key et Value à l’aide d’une projection linéaire, sans modéliser la structure géométrique locale 3D. Dans cet article, nous cherchons à réduire ces coûts tout en intégrant une priorité géométrique locale en proposant un nouveau bloc Transformer, nommé ConDaFormer. Techniquement, ConDaFormer décompose la fenêtre cubique en trois plans 2D orthogonaux, ce qui réduit le nombre de points lors de la modélisation de l’attention sur une portée similaire. Cette opération de décomposition permet d’élargir efficacement la portée de l’attention sans augmenter la complexité computationnelle, bien qu’elle ignore certaines informations contextuelles. Pour pallier ce défaut, nous proposons une stratégie d’amélioration de la structure locale, basée sur une convolution depth-wise placée avant et après l’attention. Ce schéma permet également de capturer efficacement les informations géométriques locales. Grâce à ces innovations, ConDaFormer parvient à capturer à la fois des informations contextuelles à longue portée et des priorités locales. L’efficacité de notre méthode est démontrée par des résultats expérimentaux sur plusieurs benchmarks de compréhension des nuages de points 3D. Le code est disponible à l’adresse suivante : https://github.com/LHDuan/ConDaFormer.