摘要
深度学习与计算机视觉技术的进步已对遥感领域产生深远影响,推动了土地覆盖分类、变化检测等应用中的高效数据处理。卷积神经网络(CNN)和Transformer架构因其在捕捉局部特征与全局上下文信息方面的卓越性能,被广泛应用于视觉感知算法中。本文提出一种混合式Transformer架构,该架构由基于CNN的编码器与基于Transformer的解码器组成。我们设计了一种特征调整模块,用于优化从EfficientNet主干网络提取的多尺度特征图。经过调整后的特征图被融合至基于Transformer的解码器中,以实现遥感图像的语义分割。本文将所提出的编码器-解码器架构命名为语义特征调整网络(Semantic Feature Adjustment Network, SFA-Net)。为验证SFA-Net的有效性,我们在四个公开的基准数据集(UAVid、ISPRS Potsdam、ISPRS Vaihingen 和 LoveDA)上开展了全面实验。实验结果表明,所提模型在UAVid、ISPRS Vaihingen和LoveDA数据集上的遥感图像分割任务中均达到了当前最优性能。在ISPRS Potsdam数据集上,该方法在保持与最新模型相当精度的同时,将可训练参数数量从113.8百万显著降低至10.7百万,显著提升了模型的效率与可部署性。