摘要
彩色-热成像(RGB-T)城市场景解析近年来受到广泛关注。然而,现有大多数RGB-T城市场景解析方法并未充分挖掘RGB与热成像模态之间的信息互补性。为此,本文提出一种跨模态注意力级联融合网络(Cross-Modal Attention-Cascaded Fusion Network, CACFNet),旨在充分挖掘跨模态信息的潜在价值。在设计中,跨模态注意力融合模块能够从双模态特征中有效提取互补信息;随后,级联融合模块以自底向上的方式解码多层级特征。考虑到每个像素均被赋予其所属区域的类别标签,本文进一步提出一种基于区域的模块,用于建模像素与区域之间的语义关联。此外,与以往仅采用交叉熵损失函数来约束像素级预测的方法不同,本文还引入一种新的损失函数,用于学习像素间的相互关系。在两个公开数据集上的大量实验表明,所提出的CACFNet在RGB-T城市场景解析任务中达到了当前最优的性能水平。