17 天前

AerialFormer:用于航拍图像分割的多分辨率Transformer

Kashu Yamazaki, Taisei Hanyu, Minh Tran, Adrian de Luis, Roy McCann, Haitao Liao, Chase Rainwater, Meredith Adkins, Jackson Cothren, Ngan Le
AerialFormer:用于航拍图像分割的多分辨率Transformer
摘要

航拍图像分割是一种自上而下的语义分割任务,具有诸多挑战性特征,例如前景与背景分布严重失衡、背景复杂、类内异质性高、类间同质性强以及小目标众多等问题。为应对上述挑战,我们继承了Transformer模型的优势,并提出了一种名为AerialFormer的新架构:在编码路径中采用Transformer模块,在解码路径中则引入轻量级多膨胀卷积神经网络(Multi-Dilated Convolutional Neural Networks, MD-CNNs)。AerialFormer采用分层结构设计,其中Transformer编码器生成多尺度特征,而MD-CNN解码器则融合来自多尺度的上下文信息。该设计兼顾局部细节与全局语义,从而实现强大的特征表示能力与高分辨率的分割效果。我们在三个常用数据集iSAID、LoveDA和Potsdam上对AerialFormer进行了全面评估。大量实验与详尽的消融研究结果表明,所提出的AerialFormer在性能上显著优于现有最先进方法。本文代码将在论文被接受后公开发布。