15 天前

面向方向的视觉-语义嵌入模型用于遥感图像-文本检索

Qing Ma, Jiancheng Pan, Cong Bai
面向方向的视觉-语义嵌入模型用于遥感图像-文本检索
摘要

近年来,图像-文本检索技术发展迅速。然而,在遥感领域仍面临巨大挑战,主要源于视觉与语义之间的不平衡问题,导致非语义的视觉特征与文本特征发生错误匹配。为解决这一问题,本文提出一种新型的方向导向型视觉-语义嵌入模型(Direction-Oriented Visual-semantic Embedding Model, DOVE),旨在深入挖掘视觉与语言之间的内在关联。本方法的核心创新在于:在隐空间中对视觉与文本表示进行建模,并引导二者尽可能靠近一个无冗余的区域化视觉表示。具体而言,提出一种区域导向注意力模块(Regional-Oriented Attention Module, ROAM),该模块基于区域化视觉特征,自适应地调整隐语义空间中最终视觉与文本嵌入之间的距离。同时,设计了一种轻量级的文本基因挖掘助手(Digging Text Genome Assistant, DTGA),通过较少的注意力计算操作,拓展可处理的文本表示范围,并增强全局词级语义关联。此外,引入一种全局视觉-语义约束机制,以降低对单一视觉特征的依赖,同时作为外部约束条件,进一步优化最终的视觉与文本表示。在两个基准数据集RSICD和RSITMD上,通过大量实验验证了所提方法的有效性与优越性,实验内容包括参数分析、定量对比、消融研究以及可视化分析,充分证明了DOVE模型在遥感图像-文本检索任务中的先进性能。

面向方向的视觉-语义嵌入模型用于遥感图像-文本检索 | 最新论文 | HyperAI超神经