2 个月前

减少语义混淆：面向遥感跨模态检索的场景感知聚合网络

{Cong Bai, Qing Ma, Jiancheng Pan}

摘要

近年来，遥感跨模态检索受到了研究者的广泛关注。然而，遥感图像独特的特性导致语义空间中存在大量语义混淆区域，严重制约了检索性能的提升。为此，本文提出一种新型的场景感知聚合网络（Scene-aware Weighted Aggregation Network, SWAN），通过增强场景感知能力来降低语义混淆。在视觉表征方面，设计了一种视觉多尺度融合模块（Visual Multiscale Fusion, VMSF），用于融合不同尺度的视觉特征，作为视觉表征的主干网络；同时，提出一种场景细粒度感知模块（Scene Fine-grained Sensing, SFGS），以建立不同粒度下显著特征之间的关联关系。通过这两个模块生成的视觉信息，构建出具有场景感知能力的视觉聚合表征。在文本表征方面，设计了文本粗粒度增强模块（Textual Coarse-grained Enhancement, TCGE），用于增强文本语义并实现与视觉信息的有效对齐。此外，由于遥感场景的多样性与差异性削弱了对场景的整体理解，本文提出一种新的评估指标——场景召回率（Scene Recall），通过评估场景级别的检索性能来衡量模型对场景的感知能力，同时可验证所提方法在缓解语义混淆方面的有效性。通过在RSICD和RSITMD两个数据集上的性能对比实验、消融研究及可视化分析，充分验证了所提方法的有效性与优越性。相关源代码已开源，地址为：https://github.com/kinshingpoon/SWAN-pytorch。