6 个月前

摘要

近年来，3D目标检测技术的进步得益于多视角摄像头与激光雷达（LiDAR）传感器所提供的多模态信息。然而，不同模态之间的固有差异带来了显著挑战。我们观察到，现有基于多模态的3D目标检测方法过度依赖激光雷达传感器，将摄像头视为辅助模态以补充语义细节。这种做法不仅导致摄像头数据的利用率低下，更在激光雷达数据不可用的场景下引发显著的性能下降。此外，现有融合方法普遍忽视了环境变化所引起的传感器噪声对检测性能的负面影响。本文提出MEFormer，旨在通过充分挖掘各可用模态中对3D目标检测至关重要的信息，缓解对激光雷达的过度依赖，同时在融合过程中有效抵御噪声信号的干扰。具体而言，我们引入了模态无关解码（Modality Agnostic Decoding, MOAD），该机制采用共享的Transformer解码器，无论输入模态如何，均可提取几何与语义特征，在单模态与多模态场景下均展现出显著性能提升。此外，我们设计了基于邻近性的模态集成（Proximity-based Modality Ensemble, PME）模块，能够根据环境条件自适应地利用各模态的优势，同时抑制噪声传感器带来的不利影响。在nuScenes验证集上，MEFormer取得了73.9%的NDS（NuScenes Detection Score）和71.5%的mAP（mean Average Precision）的当前最优性能。大量实验分析表明，所提方法显著提升了模型在传感器故障或环境变化等复杂条件下的鲁棒性。项目源代码已开源，地址为：https://github.com/hanchaa/MEFormer。

源 PDF