17 天前

医学Transformer:用于医学图像分割的门控轴向注意力

Jeya Maria Jose Valanarasu, Poojan Oza, Ilker Hacihaliloglu, Vishal M. Patel
医学Transformer:用于医学图像分割的门控轴向注意力
摘要

在过去十年中,深度卷积神经网络(Deep Convolutional Neural Networks)已被广泛应用于医学图像分割任务,并展现出良好的性能。然而,由于卷积架构固有的归纳偏置(inductive biases),其在捕捉图像中长距离依赖关系方面存在局限。近年来,基于Transformer的架构通过引入自注意力机制(self-attention mechanism),能够有效建模长距离依赖关系,并学习到更具表达力的特征表示。这一特性促使我们探索基于Transformer的解决方案,并研究其在医学图像分割任务中的可行性。然而,现有大多数面向视觉任务的Transformer架构需要大规模数据集才能有效训练。相比之下,医学影像数据集的样本数量相对较少,这使得直接将Transformer应用于医学图像分割面临训练困难的问题。为此,本文提出一种门控轴向注意力模型(Gated Axial-Attention),通过在自注意力模块中引入额外的控制机制,对现有架构进行扩展。此外,为提升模型在医学图像上的训练效率与性能,我们进一步提出一种局部-全局训练策略(Local-Global training strategy, LoGo):该策略分别在整张图像和图像块(patches)上进行操作,以协同学习全局与局部特征。所提出的医学Transformer模型(Medical Transformer, MedT)在三个不同的医学图像分割数据集上进行了评估,实验结果表明,其性能优于传统的卷积神经网络以及现有的其他Transformer基线模型。代码已开源:https://github.com/jeya-maria-jose/Medical-Transformer