15 天前

RemoteCLIP：面向遥感的视觉语言基础模型

Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu, Qiaolin Ye, Liyong Fu, Jun Zhou

摘要

通用基础模型近年来推动了人工智能领域的重大突破。在遥感领域，自监督学习（Self-Supervised Learning, SSL）与掩码图像建模（Masked Image Modeling, MIM）已被用于构建基础模型。然而，这些模型主要学习低层次视觉特征，且在微调阶段仍依赖标注数据；此外，由于缺乏语言理解能力，难以适用于图像检索与零样本（zero-shot）应用场景。为解决上述局限，本文提出RemoteCLIP——首个面向遥感领域的视觉-语言基础模型，旨在学习具有丰富语义信息的鲁棒视觉特征，并生成与文本嵌入对齐的表示，从而实现下游任务的无缝适配。针对预训练数据稀缺的问题，我们引入数据规模扩展策略，通过Box-to-Caption（B2C）与Mask-to-Box（M2B）转换机制，将异构标注数据统一转化为图像-文本配对格式。进一步融合无人机（UAV）影像数据后，所构建的预训练数据集规模较现有所有公开数据集的总和扩大了12倍。RemoteCLIP可广泛应用于多种下游任务，包括零样本图像分类、线性探测（linear probing）、k近邻分类（k-NN classification）、少样本分类、遥感图像中的图文检索以及目标计数。在16个数据集上的综合评估，包括新提出的RemoteCount基准测试（用于检验目标计数能力），结果表明，RemoteCLIP在不同模型规模下均显著优于各类基线基础模型。尤为突出的是，在RSITMD数据集上，RemoteCLIP相较于当前最优方法提升了9.14%的平均召回率；在RSICD数据集上，提升达8.92%。在零样本分类任务中，RemoteCLIP在12个下游数据集上的平均准确率最高较CLIP基线提升6.39%。项目主页：https://github.com/ChenDelong1999/RemoteCLIP