11 天前

MVFusion:基于语义对齐雷达与相机融合的多视角3D目标检测

Zizhang Wu, Guilian Chen, Yuanzhu Gan, Lei Wang, Jian Pu
MVFusion:基于语义对齐雷达与相机融合的多视角3D目标检测
摘要

多视角雷达-相机融合的3D目标检测能够为自动驾驶提供更远的探测距离以及更丰富的特征信息,尤其在恶劣天气条件下表现更为突出。现有的雷达-相机融合方法提出了多种将雷达信息与相机数据进行融合的设计方案。然而,这些融合方法通常仅采用多模态特征间的简单拼接操作,忽略了雷达特征与语义信息之间的对齐问题,以及模态间充分的关联性建模。为此,本文提出一种新型的多视角雷达-相机融合方法——MVFusion,旨在实现语义对齐的雷达特征,并增强跨模态之间的信息交互。为实现这一目标,我们引入语义对齐雷达编码器(Semantic-Aligned Radar Encoder, SARE),通过该模块将语义信息注入雷达特征,生成受图像引导的雷达特征。随后,我们设计了雷达引导的融合Transformer(Radar-guided Fusion Transformer, RGFT),利用交叉注意力机制从全局视角融合雷达与图像特征,从而强化两种模态之间的关联性。大量实验表明,MVFusion在nuScenes数据集上取得了当前最优的性能表现,达到51.7%的NDS(NuScenes Detection Score)和45.3%的mAP(mean Average Precision)。本文将在正式发表后公开代码及训练好的模型。

MVFusion:基于语义对齐雷达与相机融合的多视角3D目标检测 | 最新论文 | HyperAI超神经