OctFormer : Transformers basés sur les octrees pour les nuages de points 3D

Nous proposons OctFormer, un modèle basé sur les octrees et dérivé des transformateurs, destiné à l'apprentissage sur nuages de points 3D. OctFormer peut non seulement servir de squelette général et efficace pour la segmentation de nuages de points 3D et la détection d'objets, mais présente également une complexité linéaire et une capacité de mise à l'échelle adaptée aux grands nuages de points. Le défi majeur de l'application des transformateurs aux nuages de points réside dans la réduction de la complexité computationnelle quadratique, souvent prohibitivement élevée, inhérente aux mécanismes d'attention. Pour surmonter ce problème, plusieurs approches divisent les nuages de points en fenêtres non chevauchantes et restreignent les calculs d'attention à chacune de ces fenêtres locales. Toutefois, le nombre de points par fenêtre varie considérablement, ce qui nuit à l'efficacité d'exécution sur GPU. Observant que les mécanismes d'attention sont robustes aux formes des fenêtres locales, nous proposons une nouvelle attention octree, qui exploite des clés triées et mélangées issues d'octrees pour partitionner les nuages de points en fenêtres locales contenant un nombre fixe de points, tout en permettant une liberté totale dans la forme de ces fenêtres. Nous introduisons également une attention octree dilatée afin d'étendre davantage le champ réceptif. Notre attention octree peut être implémentée en seulement 10 lignes de code grâce à des bibliothèques open-source, et s'exécute 17 fois plus vite que les autres approches d'attention sur nuages de points lorsque le nombre de points dépasse 200 000. Basé sur cette attention octree, OctFormer peut être facilement mis à l'échelle et atteint des performances de pointe sur une série de benchmarks de segmentation et de détection 3D, surpassant à la fois les CNNs basés sur des voxels creux et les transformateurs précédents en termes d'efficacité et d'efficacité. Notamment, sur le défi du dataset ScanNet200, OctFormer dépasse les CNNs basés sur des voxels creux de 7,3 points en mIoU. Le code source et les modèles entraînés sont disponibles à l'adresse suivante : https://wang-ps.github.io/octformer.