
摘要
Transformer在医学图像分割任务中展现出巨大潜力,这得益于其通过自注意力机制捕捉长距离依赖关系的能力。然而,传统Transformer在学习像素间的局部(上下文)关系方面存在不足。此前的研究尝试通过在Transformer的编码器或解码器模块中嵌入卷积层来弥补这一缺陷,但往往导致特征不一致的问题。为解决该问题,本文提出一种新型基于注意力机制的解码器——级联注意力解码器(CASCaded Attention DEcoder,简称CASCADE)。CASCADE充分利用了分层视觉Transformer的多尺度特征,其结构包含两个核心组件:i)注意力门控模块,通过跳跃连接融合多层级特征;ii)卷积注意力模块,通过抑制背景信息,同时增强长程与局部上下文建模能力。此外,我们采用多阶段特征与损失聚合框架,以实现更快的收敛速度和更优的性能表现。实验结果表明,引入CASCADE的Transformer模型显著优于当前最先进的基于CNN和Transformer的方法,在Dice系数和平均交并比(mIoU)上分别取得了最高达5.07%和6.16%的提升。CASCADE为设计更高效的注意力机制解码器提供了全新的思路与技术路径。