17 天前

ScribFormer:Transformer 使 CNN 在基于涂鸦的医学图像分割中表现更优

Zihan Li, Yuan Zheng, Dandan Shan, Shuzhou Yang, Qingde Li, Beizhan Wang, Yuanting Zhang, Qingqi Hong, Dinggang Shen
ScribFormer:Transformer 使 CNN 在基于涂鸦的医学图像分割中表现更优
摘要

最近的涂鸦监督分割方法通常采用具有编码器-解码器结构的卷积神经网络(CNN)框架。尽管该框架具有多项优势,但其卷积层受限于局部感受野,通常只能捕捉短距离的特征依赖关系,这使得模型难以从涂鸦标注所提供的有限信息中学习到全局形状结构。为解决这一问题,本文提出了一种新型的CNN-Transformer混合架构,名为ScribFormer,用于涂鸦监督的医学图像分割。该模型采用三分支结构,即CNN分支、Transformer分支以及注意力引导的类别激活图(Attention-guided Class Activation Map, ACAM)分支。具体而言,CNN分支与Transformer分支协同工作,将CNN提取的局部特征与Transformer获得的全局表征进行融合,有效克服了现有涂鸦监督分割方法的局限性。此外,ACAM分支进一步协助整合浅层卷积特征与深层卷积特征,从而进一步提升模型性能。在两个公开数据集和一个私有数据集上的大量实验结果表明,所提出的ScribFormer在性能上显著优于当前最先进的涂鸦监督分割方法,甚至在部分任务上超越了全监督分割方法的表现。相关代码已开源,地址为:https://github.com/HUANGLIZI/ScribFormer。