15 天前

SDSC-UNet:基于双跳跃连接的ViT-U型网络用于建筑物提取

{Guixu Zhang, Qian Zhang, Renhe Zhang}
摘要

得益于高效的全局信息交互机制,视觉Transformer(Vision Transformers, ViTs)已在遥感(Remote Sensing, RS)图像中的建筑物提取任务中得到广泛应用。然而,遥感图像中的建筑物在尺寸上通常存在显著差异。当前主流的基于ViT的遥感图像分割模型多以Swin Transformer为基础,其在ViT模块内部缺乏多尺度信息建模能力。此外,这些方法仅将整个ViT编码器模块的输出传递给解码器,忽略了ViT编码器内部注意力图之间的相似性信息,难以向解码器提供更优的全局依赖关系。为解决上述问题,本文提出一种新型的Shunted Transformer结构,使模型能够在内部有效捕捉多尺度信息的同时,充分建立全局依赖关系,从而构建一个纯ViT架构的U型网络用于建筑物提取。此外,与以往U型结构中采用的单一路跳连接(single skip connection)不同,本文设计了一种新颖的双路跳连接结构。该结构同时将ViT编码器内部的注意力图及其整体输出传递至解码器,充分挖掘ViT编码器的深层信息,并为解码器提供更优的全局信息引导。因此,所提出的模型命名为Shunted Dual Skip Connection UNet(SDSC-UNet)。为进一步融合多层级特征,我们还设计了一种名为双路跳连接上采样融合模块(Dual Skip Upsample Fusion Module, DSUFM)的特征融合机制,以高效聚合来自不同层级的信息。实验结果表明,本模型在Inria航空图像标注数据集(Inria Aerial Image Labeling Dataset)上取得了当前最优(State-of-the-Art, SOTA)的分割性能,交并比(IoU)达到83.02%。代码已开源,访问地址为:https://github.com/stdcoutzrh/BuildingExtraction。

SDSC-UNet:基于双跳跃连接的ViT-U型网络用于建筑物提取 | 最新论文 | HyperAI超神经