11 天前

用于3D目标检测的体素Transformer

Jiageng Mao, Yujing Xue, Minzhe Niu, Haoyue Bai, Jiashi Feng, Xiaodan Liang, Hang Xu, Chunjing Xu
用于3D目标检测的体素Transformer
摘要

我们提出Voxel Transformer(VoTr),一种新颖且高效的基于体素(voxel)的Transformer主干网络,用于点云数据的三维目标检测。传统基于体素的三维检测器所采用的三维卷积主干网络,由于感受野受限,难以有效捕捉大范围上下文信息,而这一特性对目标识别与定位至关重要。为解决该问题,本文引入基于Transformer的架构,通过自注意力机制实现体素之间的长程依赖关系建模。考虑到非空体素天然具有稀疏但数量庞大的特点,直接在体素上应用标准Transformer存在挑战。为此,我们提出稀疏体素模块(sparse voxel module)与子流形体素模块(submanifold voxel module),能够高效处理空体素与非空体素的位置。为进一步扩大注意力感受野,同时保持与卷积方法相当的计算开销,我们在上述两个模块中分别设计了两种多头注意力机制:局部注意力(Local Attention)与扩张注意力(Dilated Attention)。此外,我们还提出快速体素查询(Fast Voxel Query)方法,以加速多头注意力中的查询过程。VoTr由一系列稀疏体素模块与子流形体素模块构成,可广泛应用于大多数基于体素的三维检测器中。在KITTI数据集与Waymo Open数据集上的实验结果表明,所提出的VoTr在保持计算效率的同时,相较于传统卷积基线模型实现了稳定且一致的性能提升。

用于3D目标检测的体素Transformer | 最新论文 | HyperAI超神经