
摘要
我们提出了一种基于超点(superpoint)的新型Transformer架构,用于高效实现大规模三维场景的语义分割。该方法引入了一种快速算法,将点云数据划分为分层的超点结构,使预处理速度比现有的基于超点的方法提升7倍。此外,我们利用自注意力机制捕捉多尺度下超点之间的关联关系,在三个具有挑战性的基准数据集上均取得了当前最优性能:S3DIS(6折验证,mIoU达76.0%)、KITTI-360(验证集达63.5%)以及DALES(达79.6%)。在仅使用21.2万个参数的情况下,本方法的模型规模比其他先进模型最多缩小200倍,同时保持相近的性能表现。此外,该模型在单张GPU上训练一个S3DIS数据集折(fold)仅需3小时,相比性能最佳的现有方法,所需GPU小时数减少7至70倍。相关代码与模型已开源,可通过github.com/drprojects/superpoint_transformer获取。