15 天前

探索一种细粒度多尺度方法用于跨模态遥感图像检索

Zhiqiang Yuan, Wenkai Zhang, Kun Fu, Xuan Li, Chubo Deng, Hongqi Wang, Xian Sun
探索一种细粒度多尺度方法用于跨模态遥感图像检索
摘要

遥感(Remote Sensing, RS)跨模态文本-图像检索因其输入灵活、查询高效等优势,近年来受到广泛关注。然而,传统方法往往忽视了遥感图像中目标多尺度分布与冗余性强的特点,导致检索精度下降。为应对遥感多模态检索任务中目标尺度差异大与特征冗余的问题,本文提出一种新型的非对称多模态特征匹配网络(Asymmetric Multimodal Feature Matching Network, AMFMN)。该模型能够适应多尺度特征输入,支持多源信息检索,并可动态过滤冗余特征。AMFMN引入多尺度视觉自注意力(Multi-scale Visual Self-Attention, MVSA)模块,有效提取遥感图像中的显著特征,并利用视觉特征引导文本表示学习。此外,针对遥感图像中同类样本间相似性过强所引发的正样本模糊问题,本文提出一种基于样本对先验相似度的动态可变边距三元组损失函数(Dynamic Variable Margin Triplet Loss),以增强模型判别能力。最后,与传统遥感图像-文本数据集普遍存在的文本描述粗粒度、类内相似度高等问题不同,本文构建了一个更细粒度、更具挑战性的遥感图像-文本匹配数据集——RSITMD(Remote Sensing Image-Text Match Dataset),支持通过关键词、句子以及二者联合方式进行遥感图像检索。在四个公开遥感文本-图像数据集上的实验结果表明,所提出的AMFMN模型在跨模态遥感文本-图像检索任务中均取得了当前最优性能,显著优于现有方法。

探索一种细粒度多尺度方法用于跨模态遥感图像检索 | 最新论文 | HyperAI超神经