MIST:带有卷积注意力混合(Convolutional Attention Mixing, CAM)解码器的医学图像分割Transformer

在医学图像分割领域,Transformer 是一种常见且具有前景的深度学习方法,因其能够通过自注意力机制捕捉像素间的长距离依赖关系而备受关注。尽管在医学图像分割任务中取得了显著成果,Transformer 仍存在难以有效建模多模态维度下像素局部上下文信息的局限性。为此,本文提出一种新型医学图像分割 Transformer 模型——MIST(Medical Image Segmentation Transformer),其核心创新在于引入了一种新型的卷积注意力混合(Convolutional Attention Mixing, CAM)解码器,以解决上述问题。MIST 模型由两部分组成:首先,采用预训练的多轴视觉 Transformer(MaxViT)作为编码器,提取图像的深层特征表示;随后,将编码后的特征输入至 CAM 解码器,完成图像分割任务。在 CAM 解码器中,我们设计了一种注意力混合模块,融合多头自注意力、空间注意力以及挤压-激励(Squeeze-and-Excitation)注意力机制,从而在所有空间维度上有效捕捉长距离依赖关系。此外,为增强空间信息的获取能力,模型分别采用深层卷积与浅层卷积进行特征提取与感受野扩展。通过跨网络不同层级的跳跃连接(skip connections),实现低层与高层特征的有效融合,使模型能够有效抑制冗余信息。实验结果表明,所提出的 MIST 模型在 ACDC 和 Synapse 两个公开医学图像分割数据集上,均显著优于当前最先进的专用医学图像分割模型。同时,研究进一步验证了在分层 Transformer 架构中引入 CAM 解码器对提升分割性能具有显著效果。本文所提出的模型及其完整代码已公开发布于 GitHub,可供学术界和工业界自由使用与进一步研究。