15 天前

减少语义混淆:面向遥感跨模态检索的场景感知聚合网络

{Cong Bai, Qing Ma, Jiancheng Pan}
摘要

近年来,遥感跨模态检索受到了研究者的广泛关注。然而,遥感图像独特的特性导致语义空间中存在大量语义混淆区域,严重制约了检索性能的提升。为此,本文提出一种新型的场景感知聚合网络(Scene-aware Weighted Aggregation Network, SWAN),通过增强场景感知能力来降低语义混淆。在视觉表征方面,设计了一种视觉多尺度融合模块(Visual Multiscale Fusion, VMSF),用于融合不同尺度的视觉特征,作为视觉表征的主干网络;同时,提出一种场景细粒度感知模块(Scene Fine-grained Sensing, SFGS),以建立不同粒度下显著特征之间的关联关系。通过这两个模块生成的视觉信息,构建出具有场景感知能力的视觉聚合表征。在文本表征方面,设计了文本粗粒度增强模块(Textual Coarse-grained Enhancement, TCGE),用于增强文本语义并实现与视觉信息的有效对齐。此外,由于遥感场景的多样性与差异性削弱了对场景的整体理解,本文提出一种新的评估指标——场景召回率(Scene Recall),通过评估场景级别的检索性能来衡量模型对场景的感知能力,同时可验证所提方法在缓解语义混淆方面的有效性。通过在RSICD和RSITMD两个数据集上的性能对比实验、消融研究及可视化分析,充分验证了所提方法的有效性与优越性。相关源代码已开源,地址为:https://github.com/kinshingpoon/SWAN-pytorch。