6 个月前

摘要

本文提出了一种先验指令表征框架（Prior Instruction Representation, PIR），用于遥感图像-文本检索任务，旨在解决遥感视觉-语言理解中的语义噪声问题。本工作的核心创新在于提出了一种借鉴先验知识以指导视觉与文本表征自适应学习的新范式。具体而言，本文设计了两种渐进式注意力编码器（Progressive Attention Encoder, PAE）结构——空间PAE（Spatial-PAE）与时间PAE（Temporal-PAE），用于建模长程依赖关系，从而增强关键特征的表征能力。在视觉表征方面，基于Spatial-PAE的视觉指令表征（Vision Instruction Representation, VIR）通过构建信念矩阵，利用遥感场景识别的先验引导知识，筛选出关键特征，有效降低语义噪声的影响。在文本表征方面，基于Temporal-PAE的语言循环注意力机制（Language Cycle Attention, LCA）通过前一时间步对当前时间步进行循环激活，显著提升了文本的表征能力。此外，本文提出了一种簇级隶属损失（Cluster-wise Affiliation Loss），用于约束类别间的区分性，减少公共子空间中的语义混淆区域。大量实验证明，引入先验知识指导的表征学习机制能够显著提升视觉与文本的表征性能，在两个基准数据集RSICD和RSITMD上均优于现有最先进方法。

源 PDF 查看代码