
摘要
多模态(例如,RGB-深度/RGB-热成像)融合在复杂场景(例如,室内/低光条件)的语义分割中展现出巨大的潜力。现有的方法通常通过完全微调具有复杂特征融合策略的双分支编码器-解码器框架来实现多模态语义分割,但由于特征提取和融合过程中需要进行大量的参数更新,导致训练成本高昂。为了解决这一问题,我们提出了一种简单而有效的双提示学习网络(简称DPLNet),用于高效训练的多模态(例如,RGB-D/T)语义分割。DPLNet的核心在于直接将一个冻结的预训练RGB模型适应到多模态语义分割中,从而减少参数更新。为此,我们引入了两个提示学习模块,即多模态提示生成器(Multimodal Prompt Generator, MPG)和多模态特征适配器(Multimodal Feature Adapter, MFA)。MPG负责以紧凑的方式融合来自不同模态的特征,并从浅层到深层插入以生成多层次的多模态提示,这些提示被注入到冻结的主干网络中;而MFA则在冻结的主干网络中适应这些带有提示的多模态特征,以提高多模态语义分割的效果。由于MPG和MFA都设计得非常轻量级,因此仅引入了少量可训练参数(3.88M,占预训练主干网络参数的4.4%),用于多模态特征融合和学习。使用一个简单的解码器(3.27M参数),DPLNet在四个RGB-D/T语义分割数据集上达到了新的最先进性能或与其它复杂方法相当,同时满足了参数效率的要求。此外,我们还展示了DPLNet具有通用性,并适用于其他多模态任务,如显著目标检测和视频语义分割。无需特殊设计,DPLNet的表现优于许多复杂的模型。我们的代码将在github.com/ShaohuaDong2021/DPLNet上提供。