
摘要
近年来,纯Transformer架构在点云学习基准测试中相较于卷积神经网络(CNN)已展现出令人瞩目的准确率。然而,现有的点云Transformer模型在计算上较为昂贵,主要原因在于其在处理不规则数据时耗费了大量时间进行数据结构化。为解决这一缺陷,本文提出一种稀疏窗口注意力(Sparse Window Attention, SWA)模块,该模块能够从非空体素(non-empty voxels)中高效提取粗粒度局部特征,不仅避免了昂贵的不规则数据结构化过程以及无效的空体素计算,还实现了与体素分辨率呈线性关系的计算复杂度。与此同时,为捕捉全局形状的细粒度特征,我们引入了相对注意力(Relative Attention, RA)模块,这是一种对物体刚性变换更具鲁棒性的自注意力变体。结合SWA与RA模块,我们构建了一种名为PVT的新型神经网络架构,将二者集成于统一的框架中,用于点云学习任务。与以往基于Transformer和注意力机制的模型相比,本方法在分类基准测试中达到94.0%的最高准确率,并在推理速度上平均提升10倍。大量实验结果进一步验证了PVT在部件分割与语义分割任务上的有效性,分别取得了86.6%和69.2%的mIoU(平均交并比)。