HyperAIHyperAI
il y a 19 jours

PVT : Point-Voxel Transformer pour l'apprentissage sur nuages de points

Cheng Zhang, Haocheng Wan, Xinyi Shen, Zizhao Wu
PVT : Point-Voxel Transformer pour l'apprentissage sur nuages de points
Résumé

Les architectures Transformer pures récemment développées ont atteint une précision prometteuse sur les benchmarks d'apprentissage de nuages de points, en comparaison avec les réseaux de neurones convolutifs. Toutefois, les Transformers existants pour les nuages de points sont particulièrement coûteux en termes de calcul, car ils consacrent une quantité importante de temps à structurer les données irrégulières. Pour pallier cette limitation, nous proposons un module appelé Attention Fenêtre Éparse (SWA), qui extrait des caractéristiques locales à grosses échelles à partir des voxels non vides. Ce module permet non seulement d’éviter les opérations coûteuses liées à la structuration des données irrégulières ainsi que les calculs inutiles sur les voxels vides, mais aussi d’obtenir une complexité computationnelle linéaire par rapport à la résolution des voxels. Par ailleurs, pour capturer des caractéristiques fines relatives à la forme globale, nous introduisons un module d’attention relative (RA), une variante de l’attention auto-régressive plus robuste aux transformations rigides des objets. En combinant les modules SWA et RA, nous construisons une architecture neuronale appelée PVT, intégrant ces deux composants dans un cadre conjoint pour l’apprentissage de nuages de points. Par rapport aux modèles précédents basés sur les Transformers ou l’attention, notre méthode atteint une précision maximale de 94,0 % sur le benchmark de classification, tout en offrant une accélération moyenne de 10 fois en inférence. Des expériences étendues confirment également l’efficacité de PVT sur les benchmarks de segmentation de parties et de segmentation sémantique (respectivement 86,6 % et 69,2 % de mIoU).