摘要
基于Transformer的架构在近期的各类点云理解任务中表现出色,例如3D物体形状分类与语义分割。这一优异性能主要归因于其自注意力机制,该机制具备捕捉长程依赖关系的能力。然而,由于自注意力机制存在二次方复杂度的内存开销,现有方法通常将其限制在局部窗口内运行,这导致在早期网络层中丧失了非局部信息建模能力,从而制约了模型的泛化性能与可扩展性。为解决这一问题,本文提出一种基于窗口的Transformer架构,能够在保持局部窗口信息聚合的同时,有效捕捉长程依赖关系。具体而言,我们通过将每个窗口与一组全局点云令牌(即整个场景的代表性子集)进行交互,并引入三维方向梯度直方图(3D Histogram of Oriented Gradients, HOG)描述符来增强局部几何特征表达,从而实现更丰富的上下文建模。在多个分割与分类任务上的大量实验表明,所提模型在S3DIS语义分割任务上取得了当前最优性能(mIoU提升1.67%),在ShapeNetPart部件分割任务上实现1.03%的实例mIoU提升,同时在ScanObjectNN 3D物体分类任务上表现具有竞争力。相关代码与训练好的模型将公开发布,以促进后续研究发展。