
摘要
实时且高性能的三维物体检测对于自动驾驶技术至关重要。近年来表现优异的三维物体检测器主要依赖基于点云或基于三维体素(3D voxel)的卷积操作,然而这些方法在车载部署时均存在计算效率低下的问题。相比之下,基于柱体(pillar)的方法仅使用二维卷积,计算资源消耗更少,但其检测精度远落后于基于体素的方法。本文通过深入分析柱体与体素检测器之间的主要性能差距,提出了一种实时且高性能的柱体基检测器——PillarNet。所提出的PillarNet由一个强大的编码器网络(用于高效学习柱体特征)、一个颈部网络(用于融合空间与语义特征)以及常用的检测头构成。该方法仅采用二维卷积,具有高度灵活性,可支持可选的柱体尺寸,并与经典的二维卷积神经网络主干网络(如VGGNet和ResNet)兼容。此外,PillarNet还引入了我们设计的方位角解耦的IoU回归损失函数,以及一个IoU感知的预测分支,进一步提升了检测精度。在大规模nuScenes数据集和Waymo开放数据集上的大量实验结果表明,PillarNet在检测性能与计算效率方面均优于当前最先进的三维检测方法。相关代码已公开,地址为:\url{https://github.com/agent-sgs/PillarNet}。