17 天前
TransUNet:Transformer 使医学图像分割中的编码器更强大
Jieneng Chen, Yongyi Lu, Qihang Yu, Xiangde Luo, Ehsan Adeli, Yan Wang, Le Lu, Alan L. Yuille, Yuyin Zhou

摘要
医学图像分割是构建医疗系统的关键前提,尤其在疾病诊断与治疗方案规划中具有重要意义。在各类医学图像分割任务中,U型架构(即U-Net)已成为事实上的标准,取得了显著成果。然而,由于卷积操作固有的局部性,U-Net在显式建模长距离依赖关系方面存在局限。相比之下,专为序列到序列预测设计的Transformer架构具备天然的全局自注意力机制,能够有效捕捉全局上下文信息,但其在低层次细节建模方面能力较弱,导致定位精度受限。本文提出TransUNet,该模型融合了Transformer与U-Net的优势,为医学图像分割提供了一种强有力的替代方案。一方面,Transformer将卷积神经网络(CNN)特征图中提取的图像块(patch)进行编码,作为输入序列以获取全局上下文信息;另一方面,解码器对编码后的特征进行上采样,并与高分辨率的CNN特征图融合,从而恢复精细的空间定位信息,实现精确分割。我们论证,Transformer可作为医学图像分割任务中强有力的编码器,结合U-Net结构,通过恢复局部空间信息来增强细节表现能力。在多种医学应用中,包括多器官分割与心脏分割,TransUNet均显著优于现有各类竞争方法。代码与模型已开源,详见:https://github.com/Beckschen/TransUNet。