11 天前
CRAFT:基于时空上下文融合Transformer的相机-雷达3D目标检测
Youngseok Kim, Sanmin Kim, Jun Won Choi, Dongsuk Kum

摘要
相较于激光雷达(LiDAR),摄像头与雷达传感器在成本、可靠性及维护方面具有显著优势。现有的多模态融合方法通常在结果层面融合单模态输出,即采用“后融合”(late fusion)策略。该方法虽可利用现成的单传感器检测算法,但难以充分挖掘摄像头与雷达之间的互补特性,导致性能受限,即便摄像头-雷达融合技术本身具备巨大潜力。为此,本文提出一种新型的“提案级早期融合”(proposal-level early fusion)方法,能够有效利用摄像头与雷达在空间与上下文信息上的互补优势,实现三维目标检测。所提出的融合框架首先在极坐标系中将图像候选区域与雷达点云进行关联,以高效应对两者在坐标系统与空间特性上的差异。在此基础上,后续一系列基于交叉注意力(cross-attention)的特征融合层,能够自适应地在摄像头与雷达之间交换时空上下文信息,从而实现鲁棒且具有注意力机制的融合。实验结果表明,该摄像头-雷达融合方法在nuScenes测试集上取得了41.1%的mAP与52.3%的NDS,分别比仅使用摄像头的基线模型高出8.7和10.8个百分点,同时在性能上与激光雷达方法相比也展现出具有竞争力的表现。