2 个月前

全局-局部信息软对齐用于跨模态遥感图像-文本检索

{Qian Wu, Jianting Zhang, Yafei Lv, Zaidao Wen, Gang Hu}

摘要

跨模态遥感图像-文本检索（Cross-modal Remote-Sensing Image–Text Retrieval, CMRSITR）是一项具有挑战性的任务，旨在根据文本描述检索目标遥感（Remote Sensing, RS）图像。然而，文本与遥感图像之间的模态差异带来了显著挑战。遥感图像通常包含多个目标和复杂的背景信息，因此有效实现CMRSITR需要同时挖掘全局与局部信息（Global and Local Information, GaLR）。现有方法主要关注图像的局部特征，却忽视了文本的局部特征及其与图像之间的对应关系。这些方法通常将全局与局部图像特征进行融合，并与全局文本特征对齐，但在处理复杂背景时难以消除干扰，容易忽略关键目标。为解决上述局限性，本文提出一种基于Transformer架构的新型CMRSITR框架，通过引入全局-局部信息软对齐（Global–Local Information Soft Alignment, GLISA）机制，显著提升检索性能。该框架包含一个全局图像提取模块，用于捕捉图像-文本对的全局语义特征，有效表征遥感图像中多个目标之间的相互关系。此外，我们设计了一种自适应局部信息提取（Adaptive Local Information Extraction, ALIE）模块，能够自适应地从遥感图像和文本中挖掘具有判别性的局部线索，并实现对应细粒度信息的对齐。为缓解局部特征对齐过程中可能出现的语义模糊问题，我们进一步提出局部信息软对齐（Local Information Soft-Alignment, LISA）模块，增强局部语义的一致性与匹配精度。在两个公开的CMRSITR数据集上的对比实验表明，所提方法取得了当前最优的性能，不仅显著优于传统跨模态检索方法，也超越了基于对比语言-图像预训练（Contrastive Language-Image Pretraining, CLIP）的现有方法，验证了其在复杂遥感场景下跨模态理解与匹配能力的优越性。