11 天前
DSVT:带旋转集合的动态稀疏体素Transformer
Haiyang Wang, Chen Shi, Shaoshuai Shi, Meng Lei, Sen Wang, Di He, Bernt Schiele, Liwei Wang

摘要
设计一种高效且易于部署的3D骨干网络以处理稀疏点云,是三维感知领域的基础性问题。相较于专用的稀疏卷积,Transformer中的注意力机制在灵活建模长距离依赖关系方面更具优势,且在实际应用中更易于部署。然而,由于点云具有稀疏特性,直接将标准Transformer应用于稀疏点上仍面临挑战。本文提出了一种单步长窗口机制的稀疏体素Transformer骨干网络——动态稀疏窗口Transformer(Dynamic Sparse Voxel Transformer, DSVT),专为室外三维感知任务设计。为高效并行处理稀疏点,我们提出了动态稀疏窗口注意力机制(Dynamic Sparse Window Attention),该机制根据每个窗口内点云的稀疏程度自适应地划分局部区域,并以完全并行的方式计算所有区域的特征。为进一步实现跨集合连接,我们设计了一种旋转集合划分策略,在连续的自注意力层中交替使用两种不同的划分配置。此外,为支持有效的下采样并更好地编码几何信息,我们提出了一种基于注意力机制的稀疏点三维池化模块,该模块无需依赖任何定制化的CUDA操作,兼具强大性能与良好的部署友好性。实验结果表明,DSVT在多种三维感知任务中均达到当前最优性能。尤为重要的是,DSVT可借助TensorRT实现轻松部署,并在真实场景中实现高达27Hz的实时推理速度。代码将开源,地址为:\url{https://github.com/Haiyang-W/DSVT}。