HyperAIHyperAI
il y a 11 jours

Point Transformer V3 : Plus Simple, Plus Rapide, Plus Puissant

Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao
Point Transformer V3 : Plus Simple, Plus Rapide, Plus Puissant
Résumé

Ce papier n’a pas pour objectif de rechercher une innovation au sein du mécanisme d’attention. Il se concentre plutôt sur la résolution des compromis existants entre précision et efficacité dans le contexte du traitement des nuages de points, en exploitant pleinement le pouvoir de la mise à l’échelle. Inspirés par les avancées récentes en apprentissage représentationnel 3D à grande échelle, nous constatons que la performance des modèles est davantage influencée par l’échelle que par des conceptions complexes. Ainsi, nous proposons Point Transformer V3 (PTv3), qui privilégie la simplicité et l’efficacité plutôt que la précision de mécanismes secondaires dont l’impact sur la performance globale devient négligeable après mise à l’échelle — par exemple, en remplaçant la recherche précise des voisins par KNN par une cartographie sérialisée efficace des voisins, appliquée à des nuages de points organisés selon des motifs spécifiques. Ce principe permet une mise à l’échelle significative, étendant le champ réceptif de 16 à 1 024 points tout en maintenant une efficacité élevée (augmentation de 3 fois de la vitesse de traitement et amélioration de 10 fois de l’efficacité mémoire par rapport à sa prédécesseur, PTv2). PTv3 atteint des résultats de pointe sur plus de 20 tâches downstream couvrant à la fois des scénarios intérieurs et extérieurs. Renforcé par une formation conjointe sur plusieurs jeux de données, PTv3 pousse ces performances à un niveau encore supérieur.

Point Transformer V3 : Plus Simple, Plus Rapide, Plus Puissant | Articles de recherche récents | HyperAI