6 个月前

摘要

遥感城市场景图像的语义分割在众多实际应用中具有重要意义，包括土地覆盖制图、城市变化检测、环境监测以及经济评估等。得益于深度学习技术的快速发展，卷积神经网络（CNN）多年来一直主导着语义分割领域。CNN采用分层特征表示，展现出强大的局部信息提取能力。然而，卷积层固有的局部感受野特性限制了网络对全局上下文信息的捕捉能力。近年来，作为计算机视觉领域的研究热点，Transformer在建模全局信息方面展现出巨大潜力，显著推动了图像分类、目标检测以及语义分割等多个视觉任务的发展。本文提出一种基于Transformer的解码器结构，并构建了一种类UNet的Transformer架构（UNetFormer），用于实现城市场景图像的实时语义分割。为实现高效分割，UNetFormer选用轻量级的ResNet18作为编码器，并在解码器中设计了一种高效的全局-局部注意力机制，以同时建模全局上下文与局部细节信息。大量实验结果表明，与当前先进的轻量化模型相比，所提方法不仅推理速度更快，且分割精度更高。具体而言，在UAVid和LoveDA数据集上，UNetFormer分别取得了67.8%和52.4%的mIoU指标，且在单张NVIDIA GTX 3090 GPU上，输入尺寸为512×512时，推理速度最高可达322.4 FPS。进一步实验表明，将所提出的基于Transformer的解码器与Swin Transformer编码器相结合，在Vaihingen数据集上也达到了当前最优性能，获得91.3%的F1分数和84.1%的mIoU。相关源代码将公开发布于：https://github.com/WangLibo1995/GeoSeg。

源 PDF