HyperAIHyperAI
il y a 2 mois

SVT-Net : Super léger Sparse Voxel Transformer pour la reconnaissance de lieux à grande échelle

Fan, Zhaoxin ; Song, Zhenbo ; Liu, Hongyan ; Lu, Zhiwu ; He, Jun ; Du, Xiaoyong
SVT-Net : Super léger Sparse Voxel Transformer pour la reconnaissance de lieux à grande échelle
Résumé

La reconnaissance de lieux à grande échelle basée sur des nuages de points est fondamentale pour de nombreuses applications telles que la Localisation et Cartographie Simultanées (SLAM). Bien que de nombreux modèles aient été proposés et aient obtenu d'excellents résultats en apprenant des caractéristiques locales à courte portée, les propriétés contextuelles à longue portée ont souvent été négligées. De plus, la taille des modèles est également devenue une bouteille d'encolure pour leurs applications généralisées. Pour surmonter ces défis, nous proposons un modèle de réseau ultra-léger nommé SVT-Net pour la reconnaissance de lieux à grande échelle. Plus précisément, en s'appuyant sur la convolution éparsse 3D (SP-Conv) hautement efficace, un Transformateur Voxel Épars Atomique (ASVT) et un Transformateur Voxel Épars Basé sur les Clusters (CSVT) sont proposés afin d'apprendre à la fois des caractéristiques locales à courte portée et des caractéristiques contextuelles à longue portée dans ce modèle. Composé d'ASVT et CSVT, SVT-Net peut atteindre l'état de l'art sur les jeux de données de référence en termes de précision et de vitesse avec une taille de modèle ultra-légère (0,9M). Parallèlement, deux versions simplifiées de SVT-Net sont introduites, qui atteignent également l'état de l'art tout en réduisant davantage la taille du modèle respectivement à 0,8M et 0,4M.

SVT-Net : Super léger Sparse Voxel Transformer pour la reconnaissance de lieux à grande échelle | Articles de recherche récents | HyperAI