
摘要
近年来,基于深度学习的点云描述子在场景识别任务中取得了令人瞩目的成果。然而,由于点云数据具有稀疏性,如何高效地提取具有判别性的局部特征并构建全局描述子,仍是亟待解决的挑战性问题。为此,本文提出了一种金字塔点云变换网络(Pyramid Point Transformer Network, PPT-Net),旨在从点云中学习具有判别性的全局描述子,以实现高效检索。具体而言,我们首先设计了一种金字塔点变换模块,该模块能够自适应地学习点云在不同局部k-近邻(k-NN)图中的空间关系,并引入分组自注意力机制(grouped self-attention),以有效提取点云的判别性局部特征。此外,该机制不仅增强了点云之间的长程依赖关系,还显著降低了计算开销。为获得更具判别性的全局描述子,我们构建了一个金字塔VLAD模块,用于将多尺度特征图聚合为全局描述子。通过在多尺度特征图上应用VLAD池化,并结合上下文门控机制(context gating),自适应地融合多尺度全局上下文信息,生成最终的全局描述子。在Oxford数据集以及三个自建数据集上的实验结果表明,所提方法在基于点云的场景识别任务中达到了当前最优性能。代码已开源,地址为:https://github.com/fpthink/PPT-Net。