2 个月前
AgileFormer:空间敏捷的Transformer UNet用于医学图像分割
Peijie Qiu; Jin Yang; Sayantan Kumar; Soumyendu Sekhar Ghosh; Aristeidis Sotiras

摘要
在过去的几十年中,深度神经网络,尤其是卷积神经网络,在多种医学图像分割任务中取得了最先进的性能。近期,视觉变换器(Vision Transformer, ViT)的引入显著改变了深度分割模型的格局。对ViT的关注日益增加,这主要得益于其出色的性能和可扩展性。然而,我们认为基于视觉变换器的U-Net(ViT-UNet)分割模型当前的设计可能无法有效处理医学图像分割任务中感兴趣对象的异质外观(例如,形状和大小的变化)。为了解决这一挑战,我们提出了一种结构化的方法,将空间动态组件引入到ViT-UNet中。这种适应性改进使模型能够有效地捕捉具有多样外观的目标对象的特征。具体而言,该方法通过三个主要组件实现:\textbf{(i)} 可变形补丁嵌入;\textbf{(ii)} 空间动态多头注意力机制;\textbf{(iii)} 可变形位置编码。这些组件被整合进一种新的架构中,称为AgileFormer。AgileFormer是一种空间灵活的ViT-UNet,专为医学图像分割设计。使用公开数据集进行的三项分割任务实验表明了所提方法的有效性。代码可在\href{https://github.com/sotiraslab/AgileFormer}{https://github.com/sotiraslab/AgileFormer}获取。