HyperAIHyperAI
il y a 3 mois

SAT : Transformer consciente de la taille pour la segmentation sémantique de nuages de points 3D

Junjie Zhou, Yongping Xiong, Chinwai Chiu, Fangyu Liu, Xiangyang Gong
SAT : Transformer consciente de la taille pour la segmentation sémantique de nuages de points 3D
Résumé

Les modèles Transformer ont obtenu des performances prometteuses dans la segmentation de nuages de points. Toutefois, la plupart des schémas d'attention existants appliquent un même paradigme d'apprentissage des caractéristiques à tous les points de manière égale, négligeant ainsi les différences considérables de taille entre les objets présents dans une scène. Dans cet article, nous proposons le modèle Size-Aware Transformer (SAT), capable d'adapter efficacement les champs réceptifs en fonction de la taille des objets. Notre SAT réalise un apprentissage sensible à la taille en deux étapes : introduire des caractéristiques multi-échelles dans chaque couche d'attention, et permettre à chaque point de choisir de manière adaptative ses champs d'attention. Il repose sur deux composants clés : le schéma Multi-Granularity Attention (MGA) et le module Re-Attention. Le MGA répond à deux défis : l'agrégation efficace des tokens provenant de zones éloignées, et la préservation des caractéristiques multi-échelles au sein d'une même couche d'attention. Plus précisément, nous proposons une attention croisée point-voxél pour relever le premier défi, tandis qu'une stratégie de dérivation basée sur l'attention multi-têtes standard est appliquée pour résoudre le second. Le module Re-Attention ajuste dynamiquement les scores d'attention aux caractéristiques fines et grossières produites par le MGA pour chaque point. Les résultats expérimentaux étendus démontrent que le SAT atteint des performances de pointe sur les jeux de données S3DIS et ScanNetV2. De plus, il obtient la meilleure performance équilibrée parmi toutes les méthodes comparées, selon les catégories, ce qui illustre l'efficacité du modèle dans la représentation d'objets de tailles variées. Le code source et le modèle seront publiés après l'acceptation de cet article.