15 天前

全局-局部信息软对齐用于跨模态遥感图像-文本检索

{Qian Wu, Jianting Zhang, Yafei Lv, Zaidao Wen, Gang Hu}
摘要

跨模态遥感图像-文本检索(Cross-modal Remote-Sensing Image–Text Retrieval, CMRSITR)是一项具有挑战性的任务,旨在根据文本描述检索目标遥感(Remote Sensing, RS)图像。然而,文本与遥感图像之间的模态差异带来了显著挑战。遥感图像通常包含多个目标和复杂的背景信息,因此有效实现CMRSITR需要同时挖掘全局与局部信息(Global and Local Information, GaLR)。现有方法主要关注图像的局部特征,却忽视了文本的局部特征及其与图像之间的对应关系。这些方法通常将全局与局部图像特征进行融合,并与全局文本特征对齐,但在处理复杂背景时难以消除干扰,容易忽略关键目标。为解决上述局限性,本文提出一种基于Transformer架构的新型CMRSITR框架,通过引入全局-局部信息软对齐(Global–Local Information Soft Alignment, GLISA)机制,显著提升检索性能。该框架包含一个全局图像提取模块,用于捕捉图像-文本对的全局语义特征,有效表征遥感图像中多个目标之间的相互关系。此外,我们设计了一种自适应局部信息提取(Adaptive Local Information Extraction, ALIE)模块,能够自适应地从遥感图像和文本中挖掘具有判别性的局部线索,并实现对应细粒度信息的对齐。为缓解局部特征对齐过程中可能出现的语义模糊问题,我们进一步提出局部信息软对齐(Local Information Soft-Alignment, LISA)模块,增强局部语义的一致性与匹配精度。在两个公开的CMRSITR数据集上的对比实验表明,所提方法取得了当前最优的性能,不仅显著优于传统跨模态检索方法,也超越了基于对比语言-图像预训练(Contrastive Language-Image Pretraining, CLIP)的现有方法,验证了其在复杂遥感场景下跨模态理解与匹配能力的优越性。

全局-局部信息软对齐用于跨模态遥感图像-文本检索 | 最新论文 | HyperAI超神经