11 天前
Voxel R-CNN:迈向高性能基于体素的三维目标检测
Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang, Houqiang Li

摘要
近年来,三维目标检测的进展在很大程度上依赖于三维数据的表示方式,即体素(voxel-based)或点云(point-based)表示。现有许多高性能的三维检测器采用点云表示,因其能够更好地保留点的精确位置信息。然而,由于点云数据的无序存储特性,点级特征会带来较高的计算开销。相比之下,体素结构更适用于特征提取,但由于输入数据被划分为规则网格,通常会导致检测精度下降。本文提出一种不同的视角:我们发现,原始点的精确位置并非实现高性能三维目标检测的必要条件,粗粒度的体素划分同样能够提供足够的检测精度。基于这一认识,我们提出了一种简单而高效的体素基框架——Voxel R-CNN。该方法采用两阶段策略,充分挖掘体素特征的优势,在保持与当前最先进点云基模型相当的检测精度的同时,显著降低了计算成本。Voxel R-CNN由一个三维主干网络、一个二维鸟瞰图(Bird’s-Eye-View, BEV)区域建议网络(Region Proposal Network)以及检测头构成。我们进一步设计了体素区域感兴趣池化(Voxel RoI Pooling),可直接从体素特征中提取RoI特征,以支持后续精细化处理。我们在广泛使用的KITTI数据集以及较新的Waymo Open Dataset上进行了大量实验。结果表明,相较于现有体素基方法,Voxel R-CNN在保持实时帧处理速度(即在NVIDIA RTX 2080 Ti GPU上达到25 FPS)的同时,实现了更高的检测精度。代码已开源,地址为:https://github.com/djiajunustc/Voxel-R-CNN。