6 个月前

摘要

随着基础模型在视觉任务中展现出巨大潜力，其在下游任务前的预训练已成为关键步骤。基础模型预训练的三个核心因素分别为：预训练方法、预训练数据集规模以及模型参数量。近年来，遥感领域的研究主要聚焦于预训练方法与数据集规模，而对模型参数量的关注相对有限。本文针对这一研究空白，系统探讨了增加模型参数量对基础模型在下游任务（如旋转目标检测与语义分割）中性能的影响。我们训练了参数量分别为8600万、6.0526亿、13亿和24亿的基础模型，以验证模型性能是否随参数量增加而提升。据我们所知，这是遥感领域首个达到十亿级参数规模的基础模型。此外，本文提出了一种在遥感领域高效扩展与微调视觉Transformer的方法。为全面评估模型在下游任务中的泛化能力，我们采用DOTA v2.0和DIOR-R基准数据集进行旋转目标检测评估，同时使用Potsdam与LoveDA数据集进行语义分割测试。实验结果表明，在所有基准数据集与下游任务中，随着模型参数量的增加，基础模型的性能与数据效率均显著提升。此外，我们的模型在DIOR-R、Potsdam及LoveDA等多个数据集上均取得了当前最优（SOTA）的性能表现。

源 PDF