2 个月前
SVT-Net:用于大规模场景识别的超轻量级稀疏体素变换器
Fan, Zhaoxin ; Song, Zhenbo ; Liu, Hongyan ; Lu, Zhiwu ; He, Jun ; Du, Xiaoyong

摘要
基于点云的大规模地点识别对于许多应用(如同时定位与建图(SLAM))至关重要。尽管已有许多模型被提出并通过学习短程局部特征取得了良好的性能,但长程上下文特性往往被忽视。此外,模型的大小也已成为其广泛应用的瓶颈。为了解决这些挑战,我们提出了一种称为SVT-Net的超轻量级网络模型,用于大规模地点识别。具体而言,在高效3D稀疏卷积(SP-Conv)的基础上,我们提出了基于原子的稀疏体素变换器(ASVT)和基于聚类的稀疏体素变换器(CSVT),以在该模型中学习短程局部特征和长程上下文特征。由ASVT和CSVT组成的SVT-Net在基准数据集上实现了最先进的性能,无论是在精度还是速度方面,且模型大小仅为0.9M。与此同时,我们还介绍了SVT-Net的两个简化版本,它们同样达到了最先进的水平,并进一步将模型大小分别减少到0.8M和0.4M。