2 个月前

基于级联注意力解码的医学图像分割

{Radu Marculescu, Md Mostafijur Rahman}

摘要

Transformer在医学图像分割任务中展现出巨大潜力，这得益于其通过自注意力机制捕捉长距离依赖关系的能力。然而，传统Transformer在学习像素间的局部（上下文）关系方面存在不足。此前的研究尝试通过在Transformer的编码器或解码器模块中嵌入卷积层来弥补这一缺陷，但往往导致特征不一致的问题。为解决该问题，本文提出一种新型基于注意力机制的解码器——级联注意力解码器（CASCaded Attention DEcoder，简称CASCADE）。CASCADE充分利用了分层视觉Transformer的多尺度特征，其结构包含两个核心组件：i）注意力门控模块，通过跳跃连接融合多层级特征；ii）卷积注意力模块，通过抑制背景信息，同时增强长程与局部上下文建模能力。此外，我们采用多阶段特征与损失聚合框架，以实现更快的收敛速度和更优的性能表现。实验结果表明，引入CASCADE的Transformer模型显著优于当前最先进的基于CNN和Transformer的方法，在Dice系数和平均交并比（mIoU）上分别取得了最高达5.07%和6.16%的提升。CASCADE为设计更高效的注意力机制解码器提供了全新的思路与技术路径。