6 个月前

摘要

随着大量高质量遥感图像的 readily 可获取，利用标注成本较低的图像语料库逐渐受到广泛关注。自监督模型通过设计预训练任务（pretext task），为海量无标签数据生成伪标签，从而提供训练所需的监督信号，以学习通用特征表示。尽管先前研究已在遥感领域探索多种自监督学习方法，基于局部-全局视图对齐的预训练任务仍鲜有涉及，而此类方法在自然图像领域已取得了当前最优性能。受 DINO 模型的启发——该模型基于全局-局部视图对齐，结合知识蒸馏机制，构建了高效的表示学习结构——我们为遥感图像自监督学习（SSLRS）提出了两种新的预训练任务。基于这些任务，我们系统探究了正向时间对比学习以及多尺度视图在 SSLRS 中的有效性。为进一步提升性能，我们对 DINO 模型进行扩展，提出 DINO-MC 模型，该模型采用多种尺寸的局部视图（多尺度裁剪）替代原模型中固定尺寸的局部视图，以缓解遥感图像中目标尺度变化有限的问题。实验结果表明，即使仅在数据集的 10% 上进行预训练，DINO-MC 在多个遥感任务上的表现仍达到或超越现有最先进的 SSLRS 方法，且所需计算资源更少。相关代码、模型及实验结果已公开发布于：https://github.com/WennyXY/DINO-MC。

源 PDF