11 天前
EPMF:面向3D语义分割的高效感知感知多传感器融合
Mingkui Tan, Zhuangwei Zhuang, Sitao Chen, Rong Li, Kui Jia, Qicheng Wang, Yuanqing Li

摘要
我们研究用于三维语义分割的多传感器融合技术,该技术在自动驾驶、机器人等众多应用场景中对场景理解具有重要意义。然而,现有的基于融合的方法由于两种模态之间存在巨大差异,往往难以取得理想性能。为此,本文提出一种协同融合框架——感知感知型多传感器融合(Perception-Aware Multi-Sensor Fusion, PMF),旨在有效利用来自两种模态的感知信息:RGB图像中的外观信息与点云数据中的空间深度信息。为此,我们采用透视投影将点云数据映射至相机坐标系,并在二维空间中同时处理来自激光雷达(LiDAR)和摄像头的输入,从而避免RGB图像的信息损失。随后,我们设计了一种双流网络结构,分别从两种模态中提取特征。提取后的特征通过高效的基于残差的融合模块进行融合。此外,我们引入了额外的感知感知损失(perception-aware losses),用于量化两种模态之间的感知差异,以增强融合过程的语义一致性。最后,我们进一步提出了PMF的改进版本——高效感知感知型多传感器融合(Efficient PMF, EPMF)。该方法在透视投影框架下,通过优化数据预处理流程与网络结构,实现了更高的效率与更强的性能。具体而言,我们提出了跨模态对齐与裁剪策略,以获取紧凑的输入特征,显著降低冗余计算开销。同时,我们在透视投影空间中探索了更高效的上下文建模模块,并将激光雷达特征融合至相机流中,从而有效提升双流网络的整体表现。在多个基准数据集上的大量实验验证了所提方法的优越性。例如,在nuScenes测试集上,我们的EPMF方法在mIoU指标上比当前最优方法RangeFormer提升了0.9%。相关源代码已公开,地址为:https://github.com/ICEORY/PMF。