2 个月前

RCBEVDet++:迈向高精度雷达-相机融合3D感知网络

Lin, Zhiwei ; Liu, Zhe ; Wang, Yongtao ; Zhang, Le ; Zhu, Ce
RCBEVDet++:迈向高精度雷达-相机融合3D感知网络
摘要

感知周围环境是自动驾驶中的基本任务。为了获得高精度的感知结果,现代自动驾驶系统通常采用多模态传感器来收集全面的环境数据。其中,雷达-相机多模态感知系统因其出色的感知能力和成本效益而备受青睐。然而,雷达和相机传感器之间显著的模态差异给信息融合带来了挑战。为了解决这一问题,本文提出了RCBEVDet,一种雷达-相机融合的三维目标检测框架。具体而言,RCBEVDet是在现有的基于相机的三维目标检测器基础上开发的,补充了一个专门设计的雷达特征提取器RadarBEVNet以及一个交叉注意力多层融合(CAMF)模块。首先,RadarBEVNet利用双流雷达骨干网络和Radar Cross Section(RCS)感知的鸟瞰图编码器,将稀疏的雷达点云编码为密集的鸟瞰图(BEV)特征。其次,CAMF模块通过可变形注意力机制对齐雷达和相机的鸟瞰图特征,并采用通道和空间融合层进行融合。为了进一步提升RCBEVDet的能力,我们引入了RCBEVDet++,该方法通过稀疏融合改进了CAMF模块,支持基于查询的多视角相机感知模型,并适应更广泛范围内的感知任务。在nuScenes数据集上的大量实验表明,我们的方法能够无缝集成到现有的基于相机的三维感知模型中,并在各种感知任务中提升其性能。此外,我们的方法在三维目标检测、鸟瞰图语义分割和三维多目标跟踪任务中取得了最先进的雷达-相机融合结果。值得注意的是,在使用ViT-L作为图像骨干网络的情况下,RCBEVDet++在无需测试时增强或模型集成的情况下,在三维目标检测任务中达到了72.73 NDS和67.34 mAP的成绩。

RCBEVDet++:迈向高精度雷达-相机融合3D感知网络 | 最新论文 | HyperAI超神经