17 天前
Transformer 与卷积的融合:面向超精细分辨率城市场景图像语义分割的双边感知网络
Libo Wang, Rui Li, Dongzhi Wang, Chenxi Duan, Teng Wang, Xiaoliang Meng

摘要
从超精细分辨率(Very Fine Resolution, VFR)城市场景图像中进行语义分割,在自动驾驶、土地覆盖分类、城市规划等多个应用场景中具有重要意义。然而,VFR图像中蕴含的丰富细节,尤其是物体在尺度和外观上的显著变化,严重制约了现有深度学习方法的性能。针对这一问题的研究已成为遥感领域一个极具前景的方向,为场景级景观格局分析与决策支持提供了技术基础。本文提出了一种双边感知网络(Bilateral Awareness Network, BANet),该网络包含依赖路径(dependency path)与纹理路径(texture path),旨在充分捕捉VFR图像中的长程依赖关系与细粒度细节信息。具体而言,依赖路径基于ResT——一种具有内存高效多头自注意力机制的新型Transformer骨干网络;而纹理路径则构建于堆叠卷积操作之上。此外,本文引入线性注意力机制,设计了一种特征融合模块,用于高效融合依赖路径与纹理路径提取的特征。在三个大规模城市场景图像分割数据集(即ISPRS Vaihingen数据集、ISPRS Potsdam数据集和UAVid数据集)上开展的大量实验表明,所提出的BANet具有优异的性能。其中,在UAVid数据集上取得了64.6%的平均交并比(mIoU)结果。相关代码已开源,地址为:https://github.com/WangLibo1995/GeoSeg。