11 天前
HRFuser:一种用于2D目标检测的多分辨率传感器融合架构
Tim Broedermann, Christos Sakaridis, Dengxin Dai, Luc Van Gool

摘要
除了标准摄像头外,自动驾驶车辆通常还配备多种额外传感器,如激光雷达(lidar)和雷达(radar),这些传感器有助于获取更丰富的信息,以实现对驾驶场景内容的精准感知。尽管近年来已有若干研究致力于通过针对特定场景设计的架构组件,实现特定传感器对之间的融合(如摄像头与激光雷达、摄像头与雷达的融合),但现有文献中仍缺乏一种通用且模块化的传感器融合架构。本文提出 HRFuser,一种面向多模态2D目标检测的模块化架构。该架构采用多分辨率融合策略,可扩展至任意数量的输入模态。HRFuser 的设计基于当前最先进的仅图像高分辨率密集预测网络,并引入了一种新颖的多窗口交叉注意力模块,用于在多个分辨率层级上实现多模态信息的有效融合。通过在 nuScenes 数据集以及恶劣环境下的 DENSE 数据集上进行大量实验,我们验证了所提模型能够有效利用额外模态之间的互补特征,显著优于仅使用摄像头的性能,并在2D目标检测指标下持续超越当前最先进的3D与2D融合方法。相关源代码已公开发布。