15 天前

RemoteCLIP:面向遥感的视觉语言基础模型

Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu, Qiaolin Ye, Liyong Fu, Jun Zhou
RemoteCLIP:面向遥感的视觉语言基础模型
摘要

通用基础模型近年来推动了人工智能领域的重大突破。在遥感领域,自监督学习(Self-Supervised Learning, SSL)与掩码图像建模(Masked Image Modeling, MIM)已被用于构建基础模型。然而,这些模型主要学习低层次视觉特征,且在微调阶段仍依赖标注数据;此外,由于缺乏语言理解能力,难以适用于图像检索与零样本(zero-shot)应用场景。为解决上述局限,本文提出RemoteCLIP——首个面向遥感领域的视觉-语言基础模型,旨在学习具有丰富语义信息的鲁棒视觉特征,并生成与文本嵌入对齐的表示,从而实现下游任务的无缝适配。针对预训练数据稀缺的问题,我们引入数据规模扩展策略,通过Box-to-Caption(B2C)与Mask-to-Box(M2B)转换机制,将异构标注数据统一转化为图像-文本配对格式。进一步融合无人机(UAV)影像数据后,所构建的预训练数据集规模较现有所有公开数据集的总和扩大了12倍。RemoteCLIP可广泛应用于多种下游任务,包括零样本图像分类、线性探测(linear probing)、k近邻分类(k-NN classification)、少样本分类、遥感图像中的图文检索以及目标计数。在16个数据集上的综合评估,包括新提出的RemoteCount基准测试(用于检验目标计数能力),结果表明,RemoteCLIP在不同模型规模下均显著优于各类基线基础模型。尤为突出的是,在RSITMD数据集上,RemoteCLIP相较于当前最优方法提升了9.14%的平均召回率;在RSICD数据集上,提升达8.92%。在零样本分类任务中,RemoteCLIP在12个下游数据集上的平均准确率最高较CLIP基线提升6.39%。项目主页:https://github.com/ChenDelong1999/RemoteCLIP

RemoteCLIP:面向遥感的视觉语言基础模型 | 最新论文 | HyperAI超神经