2 个月前

CMX:基于Transformer的RGB-X语义分割跨模态融合方法

Zhang, Jiaming ; Liu, Huayao ; Yang, Kailun ; Hu, Xinxin ; Liu, Ruiping ; Stiefelhagen, Rainer
CMX:基于Transformer的RGB-X语义分割跨模态融合方法
摘要

基于图像分割的场景理解是自动驾驶车辆的关键组成部分。通过利用辅助模态(X-模态)中的互补特征,可以进一步提升RGB图像的像素级语义分割性能。然而,由于不同模态传感器特性的差异,使用一种模态无关的模型来覆盖多种传感器的问题仍未得到解决。与以往针对特定模态的方法不同,本研究提出了一种统一的融合框架——CMX,用于RGB-X语义分割。为了在不同的模态之间实现良好的泛化能力,尤其是在包含补充信息和不确定性的情况下,统一的跨模态交互对于模态融合至关重要。具体而言,我们设计了一个跨模态特征校正模块(Cross-Modal Feature Rectification Module, CM-FRM),该模块通过利用一个模态的特征来校正另一个模态的特征,从而对双模态特征进行校准。在校正后的特征对基础上,我们部署了一个特征融合模块(Feature Fusion Module, FFM),在混合之前充分交换长距离上下文信息。为了验证CMX的有效性,我们首次将五种与RGB互补的模态——深度、热成像、偏振、事件和LiDAR——统一起来。大量实验表明,CMX在多模态融合中表现出色,在五个RGB-深度基准测试集上达到了最先进的性能,并且在RGB-热成像、RGB-偏振和RGB-LiDAR数据集上也取得了最佳表现。此外,为了探讨其在密集稀疏数据融合中的泛化能力,我们基于EventScape数据集建立了一个RGB-事件语义分割基准测试集,在该测试集上CMX也创下了新的最先进记录。CMX的源代码已公开发布于https://github.com/huaaaliu/RGBX_Semantic_Segmentation。

CMX:基于Transformer的RGB-X语义分割跨模态融合方法 | 最新论文 | HyperAI超神经