16 天前
金字塔R-CNN:迈向更优性能与适应性的3D目标检测
Jiageng Mao, Minzhe Niu, Haoyue Bai, Xiaodan Liang, Hang Xu, Chunjing Xu

摘要
我们提出了一种灵活且高性能的两阶段3D目标检测框架——Pyramid R-CNN,用于从点云数据中进行3D目标检测。现有方法通常依赖于感兴趣区域(RoI)内的点或体素进行第二阶段的特征提取,但难以有效处理这些点的稀疏性与非均匀分布问题,从而可能导致远距离物体检测失败。为解决上述问题,我们提出了一种新型的第二阶段模块——金字塔RoI头(Pyramid RoI Head),能够自适应地从稀疏的感兴趣点中学习特征。该模块包含三个核心组件:首先,我们提出了RoI-网格金字塔(RoI-grid Pyramid),通过分层聚合方式在金字塔结构中广泛收集每个RoI内的感兴趣点,以缓解点云稀疏性问题;其次,我们提出RoI-网格注意力机制(RoI-grid Attention),这是一种新型操作,通过将传统的基于注意力的点操作与图神经网络(graph-based)点操作统一建模,从而从稀疏点中编码更丰富的语义信息;第三,我们设计了密度感知半径预测(Density-Aware Radius Prediction, DARP)模块,可根据不同区域的点云密度动态调整RoI的关注范围,实现自适应聚焦。通过融合上述三个组件,我们的金字塔RoI头在稀疏且分布不均的场景下表现出强鲁棒性,并可与多种3D主干网络(backbone)兼容,持续提升检测性能。大量实验表明,Pyramid R-CNN在KITTI和Waymo Open数据集上均显著超越当前最优的3D检测模型。