Segmentation sémantique 3D efficace avec Superpoint Transformer

Nous introduisons une nouvelle architecture transformer basée sur des superpoints pour une segmentation sémantique efficace des scènes 3D à grande échelle. Notre méthode intègre un algorithme rapide permettant de partitionner les nuages de points en une structure hiérarchique de superpoints, rendant notre prétraitement jusqu’à 7 fois plus rapide que les approches existantes basées sur les superpoints. En outre, nous exploitons un mécanisme d’attention auto-associative pour capturer les relations entre les superpoints à plusieurs échelles, ce qui conduit à des performances de pointe sur trois jeux de données de référence exigeants : S3DIS (76,0 % de mIoU sur validation 6-fold), KITTI-360 (63,5 % sur Val) et DALES (79,6 %). Avec seulement 212 000 paramètres, notre approche est jusqu’à 200 fois plus compacte que d’autres modèles de pointe tout en maintenant des performances comparables. En outre, notre modèle peut être entraîné sur une seule GPU en 3 heures pour une fold du jeu de données S3DIS, soit entre 7 et 70 fois moins d’heures de GPU par rapport aux méthodes les plus performantes. Notre code et nos modèles sont disponibles à l’adresse github.com/drprojects/superpoint_transformer.