6 个月前

摘要

基于点云的三维目标检测方法通常采用类似卷积的算子，在局部邻域内使用固定权重核进行信息处理，并通过分层方式聚合全局上下文信息。然而，二维视觉中的非局部神经网络与自注意力机制的研究表明，显式建模长距离依赖关系能够显著提升模型的鲁棒性与竞争力。本文提出两种面向三维目标检测中上下文建模的自注意力变体，通过在卷积特征的基础上引入自注意力特征来增强表示能力。我们首先将成对自注意力机制集成到当前最先进的鸟瞰图（BEV）、体素（voxel）和点云（point-based）检测器中，在KITTI验证集上实现了相对于强基线模型最高达1.5个3D AP的性能提升，同时将模型参数量减少15%–80%，计算开销降低30%–50%。随后，我们进一步提出一种自注意力变体，该方法通过在随机采样位置上学习形变，自适应地选择最具代表性的特征子集。这一设计不仅使显式的全局上下文建模能够扩展至更大规模的点云数据，还生成了更具判别力和信息量的特征描述符。所提出的框架具有高度灵活性，可无缝适配大多数主流三维目标检测器，在提升检测精度的同时显著提高参数效率与计算效率。实验结果表明，该方法在KITTI、nuScenes和Waymo Open数据集上均显著提升了三维目标检测性能。代码已开源，地址为：https://github.com/AutoVision-cloud/SA-Det3D。

源 PDF