
视觉-语言预训练(Vision-and-Language Pre-training, VLP)模型近年来受到广泛关注。通过在特定数据集上进行微调,这些模型在多种任务中均展现出显著的性能提升。然而,对VLP模型进行全量微调不仅消耗大量计算资源,还带来显著的环境影响。此外,由于遥感(Remote Sensing, RS)数据持续更新,全量微调在实际应用中往往难以实现。为应对这一挑战,本文研究了一种参数高效迁移学习(Parameter-Efficient Transfer Learning, PETL)方法,旨在高效、有效地将自然域的视觉-语言知识迁移至遥感领域,应用于图像-文本检索任务。为此,本文做出以下贡献:1)我们构建了一个新颖且复杂的PETL框架,用于遥感图像-文本检索(Remote Sensing Image-Text Retrieval, RSITR)任务,该框架包含预训练的CLIP模型、一个多模态遥感适配器(multimodal remote sensing adapter),以及一种混合多模态对比学习(Hybrid Multi-modal Contrastive, HMMC)目标函数;2)针对遥感数据中模态内相似性较高的问题,我们设计了一种简单而有效的HMMC损失函数,有效缓解了因数据特性带来的语义混淆问题;3)我们对基于PETL的遥感图像-文本检索任务进行了全面的实证研究。实验结果表明,所提出的方法具有良好的前景和巨大的实际应用潜力;4)我们在RSITR任务上对多种前沿的PETL方法进行了基准测试。所提出的模型仅包含0.16M可训练参数,相较于全量微调实现了98.9%的参数压缩,显著降低了训练成本。在检索性能上,相比传统方法提升7%–13%,并达到甚至超越全量微调的水平。本研究为遥感视觉-语言任务提供了新的思路与有价值的实践启示,推动了高效、可持续的遥感多模态学习技术的发展。