2 个月前
Sigma:用于多模态语义分割的Siamese Mamba网络
Zifu Wan; Pingping Zhang; Yuhao Wang; Silong Yong; Simon Stepputtis; Katia Sycara; Yaqi Xie

摘要
多模态语义分割显著提升了人工智能代理在感知和场景理解方面的能力,尤其是在低光或过曝等不利条件下。通过利用额外的模态(X-模态),如热成像和深度信息,与传统的RGB图像相结合,可以提供互补的信息,从而实现更稳健和可靠的预测。在这项工作中,我们介绍了Sigma,一种基于先进Mamba技术的Siamese Mamba网络,用于多模态语义分割。与依赖于局部感受野有限的卷积神经网络(CNN)或以二次复杂度为代价提供全局感受野的视觉变换器(Vision Transformers, ViTs)不同,我们的模型能够在保持线性复杂度的同时实现全局感受野。通过使用Siamese编码器并创新地引入基于Mamba的融合机制,我们能够有效地从不同的模态中选择关键信息。随后开发了解码器以增强模型在通道维度上的建模能力。我们提出的方法在RGB-热成像和RGB-深度语义分割任务上进行了严格的评估,展示了其优越性,并标志着状态空间模型(State Space Models, SSMs)首次成功应用于多模态感知任务。代码可在https://github.com/zifuwan/Sigma 获取。