6 个月前

摘要

我们提出Voxel Transformer（VoTr），一种新颖且高效的基于体素（voxel）的Transformer主干网络，用于点云数据的三维目标检测。传统基于体素的三维检测器所采用的三维卷积主干网络，由于感受野受限，难以有效捕捉大范围上下文信息，而这一特性对目标识别与定位至关重要。为解决该问题，本文引入基于Transformer的架构，通过自注意力机制实现体素之间的长程依赖关系建模。考虑到非空体素天然具有稀疏但数量庞大的特点，直接在体素上应用标准Transformer存在挑战。为此，我们提出稀疏体素模块（sparse voxel module）与子流形体素模块（submanifold voxel module），能够高效处理空体素与非空体素的位置。为进一步扩大注意力感受野，同时保持与卷积方法相当的计算开销，我们在上述两个模块中分别设计了两种多头注意力机制：局部注意力（Local Attention）与扩张注意力（Dilated Attention）。此外，我们还提出快速体素查询（Fast Voxel Query）方法，以加速多头注意力中的查询过程。VoTr由一系列稀疏体素模块与子流形体素模块构成，可广泛应用于大多数基于体素的三维检测器中。在KITTI数据集与Waymo Open数据集上的实验结果表明，所提出的VoTr在保持计算效率的同时，相较于传统卷积基线模型实现了稳定且一致的性能提升。

源 PDF