摘要
局部与全局上下文依赖关系对于从遥感(RS)图像中进行建筑物提取至关重要。卷积神经网络(CNN)擅长提取局部空间细节,但难以建模长距离依赖关系。近年来,视觉Transformer(ViT)在建模全局上下文依赖方面展现出巨大潜力。然而,其通常带来巨大的计算开销,且在特征提取过程中难以充分保留空间细节。为充分发挥CNN与ViT的优势,本文提出DSAT-Net,将二者融合于统一模型之中。在DSAT-Net中,我们设计了一种高效的双空间注意力Transformer(DSAFormer),以解决标准ViT的固有缺陷。该结构采用双注意力机制,相互补充:其中,全局注意力路径(GAP)在进行全局自注意力计算前对特征图进行大尺度下采样,有效降低计算成本;局部注意力路径(LAP)则利用高效的条带卷积生成局部注意力,缓解GAP中下采样操作带来的信息损失,同时补充空间细节信息。此外,我们设计了一种特征精炼模块——通道混合特征精炼模块(CM-FRM),用于融合低层与高层特征。实验结果表明,所提模型在三个公开的建筑物提取数据集上均取得了具有竞争力的性能。代码将开源,地址为:https://github.com/stdcoutzrh/BuildingExtraction。