2 个月前

MaxViT-UNet:多轴注意力机制在医学图像分割中的应用

Khan, Abdul Rehman ; Khan, Asifullah
MaxViT-UNet:多轴注意力机制在医学图像分割中的应用
摘要

自卷积神经网络(CNNs)出现以来,它们在医学图像分析领域取得了显著进展。然而,卷积运算符的局部性质可能限制了CNN捕捉全局和长距离交互的能力。近年来,由于能够有效处理全局特征,Transformer在计算机视觉社区以及医学图像分割中逐渐受到欢迎。然而,自注意力机制的可扩展性问题以及缺乏类似CNN的归纳偏置可能限制了其应用。因此,结合了卷积和自注意力机制优势的混合视觉Transformer(CNN-Transformer)变得越来越重要。在这项工作中,我们提出了MaxViT-UNet,这是一种新的基于编码器-解码器架构的UNet类型混合视觉Transformer(CNN-Transformer),用于医学图像分割。所提出的混合解码器设计旨在在每个解码阶段以较小的内存和计算开销利用卷积和自注意力机制的优势。在每个解码阶段内引入多轴自注意力机制显著增强了对象区域与背景区域之间的区分能力,从而有助于提高分割效率。在混合解码器中,还提出了一种新的模块。融合过程首先通过转置卷积上采样的低级解码器特征与来自混合编码器的跳跃连接特征进行整合。随后,融合后的特征通过多轴注意机制进行细化。所提出的解码器模块多次重复使用,逐步实现细胞核区域的分割。实验结果表明,在MoNuSeg18和MoNuSAC20数据集上的测试证明了该技术的有效性。