17 天前
ConDaFormer:用于3D点云理解的解耦Transformer与局部结构增强
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Gui-Song Xia, Dacheng Tao

摘要
近年来,Transformer架构在三维点云理解任务中得到了广泛探索,并取得了令人瞩目的进展。然而,点云数据通常包含超过十万级别的点数,使得全局自注意力机制在计算上变得不可行。因此,现有大多数方法将Transformer应用于局部区域,例如球形或立方体窗口。尽管如此,这些局部窗口仍包含大量查询(Query)与键(Key)的组合,导致计算开销较高。此外,以往的方法通常通过线性投影来学习查询、键和值,而未能有效建模局部三维几何结构。本文提出一种新型Transformer模块——ConDaFormer,旨在降低计算成本并显式建模局部几何先验。技术上,ConDaFormer将立方体窗口分解为三个正交的二维平面,从而在保持相近感受野的前提下显著减少参与注意力计算的点数。该分解操作有助于扩大注意力的感受范围,同时不增加计算复杂度,但可能忽略部分上下文信息。为此,我们进一步设计了一种局部结构增强策略:在注意力机制前后引入深度可分离卷积(depth-wise convolution),以有效捕捉局部几何特征。该方案不仅能补充被忽略的上下文信息,还能增强对局部几何结构的建模能力。得益于上述设计,ConDaFormer能够同时捕获长距离上下文信息与局部几何先验。在多个三维点云理解基准测试上的实验结果验证了其有效性。相关代码已开源,地址为:https://github.com/LHDuan/ConDaFormer。