9 天前

亿级规模的遥感图像基础模型

Keumgang Cha, Junghoon Seo, Taekyung Lee
亿级规模的遥感图像基础模型
摘要

随着基础模型在视觉任务中展现出巨大潜力,其在下游任务前的预训练已成为关键步骤。基础模型预训练的三个核心因素分别为:预训练方法、预训练数据集规模以及模型参数量。近年来,遥感领域的研究主要聚焦于预训练方法与数据集规模,而对模型参数量的关注相对有限。本文针对这一研究空白,系统探讨了增加模型参数量对基础模型在下游任务(如旋转目标检测与语义分割)中性能的影响。我们训练了参数量分别为8600万、6.0526亿、13亿和24亿的基础模型,以验证模型性能是否随参数量增加而提升。据我们所知,这是遥感领域首个达到十亿级参数规模的基础模型。此外,本文提出了一种在遥感领域高效扩展与微调视觉Transformer的方法。为全面评估模型在下游任务中的泛化能力,我们采用DOTA v2.0和DIOR-R基准数据集进行旋转目标检测评估,同时使用Potsdam与LoveDA数据集进行语义分割测试。实验结果表明,在所有基准数据集与下游任务中,随着模型参数量的增加,基础模型的性能与数据效率均显著提升。此外,我们的模型在DIOR-R、Potsdam及LoveDA等多个数据集上均取得了当前最优(SOTA)的性能表现。