
摘要
深度学习在很大程度上重塑了遥感(RS)研究中的航空图像理解,并取得了巨大成功。然而,现有的大多数深度模型都是使用ImageNet预训练权重进行初始化的。由于自然图像与航空图像之间不可避免地存在较大的领域差异,这可能会限制在下游航空场景任务中微调性能的提升。这一问题促使我们对基于航空图像的遥感预训练(RSP)进行了实证研究。为此,我们利用目前最大的遥感场景识别数据集——MillionAID,从头开始训练不同的网络,以获得一系列遥感预训练骨干网络,包括卷积神经网络(CNN)和视觉变换器(如Swin和ViTAE),这些模型已经在计算机视觉任务中展现出令人鼓舞的性能。随后,我们使用这些CNN和视觉变换器骨干网络,研究了RSP对代表性下游任务的影响,包括场景识别、语义分割、目标检测和变化检测。实证研究表明,RSP有助于在场景识别任务中实现显著性能提升,并能更好地感知与遥感相关的语义信息,例如“桥梁”和“飞机”。我们还发现,尽管RSP减轻了传统ImageNet预训练在遥感图像上的数据差异问题,但它可能仍然受到任务差异的影响,即下游任务需要与场景识别任务不同的表示形式。这些发现呼吁进一步加强对大规模预训练数据集和有效预训练方法的研究。代码和预训练模型将在https://github.com/ViTAE-Transformer/ViTAE-Transformer-Remote-Sensing 上发布。