Transformateur sphérique pour la reconnaissance 3D basée sur LiDAR

La reconnaissance de nuages de points 3D basée sur LiDAR a permis des avancées dans de nombreuses applications. Sans tenir spécifiquement compte de la distribution des points LiDAR, la plupart des méthodes actuelles souffrent d’une rupture d’information et d’un champ réceptif limité, en particulier pour les points éloignés et rares. Dans ce travail, nous étudions la distribution à densité variable des points LiDAR et proposons SphereFormer, une méthode permettant d’agréger directement l’information des points denses et proches vers les points rares et éloignés. Nous introduisons une attention auto-associative à fenêtre radiale, qui partitionne l’espace en plusieurs fenêtres étroites et allongées non chevauchantes. Cette approche résout efficacement le problème de rupture d’information et augmente de manière lisse et significative le champ réceptif, ce qui améliore considérablement les performances sur les points éloignés et rares. En outre, afin de mieux s’adapter aux fenêtres étroites et allongées, nous proposons une découpe exponentielle pour obtenir un encodage de position à fine granularité, ainsi qu’une sélection dynamique des caractéristiques pour renforcer la capacité de représentation du modèle. Notamment, notre méthode obtient la première place sur les benchmarks de segmentation sémantique nuScenes et SemanticKITTI, avec respectivement 81,9 % et 74,8 % de mIoU. Elle atteint également la troisième place sur le benchmark de détection d’objets nuScenes, avec 72,8 % de NDS et 68,5 % de mAP. Le code est disponible à l’adresse suivante : https://github.com/dvlab-research/SphereFormer.git.