17 天前

MISSFormer:一种高效的医学图像分割Transformer

Xiaohong Huang, Zhifang Deng, Dandan Li, Xueguang Yuan
MISSFormer:一种高效的医学图像分割Transformer
摘要

基于卷积神经网络(CNN)的方法在医学图像分割任务中取得了令人瞩目的成果,但由于卷积操作固有的局部性,难以捕捉长距离依赖关系。近年来,基于Transformer的方法因其在建模长距离依赖关系方面的强大能力以及优异的性能,在视觉任务中备受关注。然而,这类方法在建模局部上下文信息方面存在不足。本文以医学图像分割为例,提出了一种高效且强大的医学图像分割Transformer模型——MISSFormer。MISSFormer是一种分层的编码器-解码器网络,包含两项创新设计:1)提出了一种增强型Transformer模块(Enhanced Transformer Block),并在此基础上重新设计了前馈网络,该模块不仅增强了长距离依赖建模能力,还有效补充了局部上下文信息,使特征更具判别性;2)提出了增强型Transformer上下文桥接结构(Enhanced Transformer Context Bridge),与以往仅建模全局信息的方法不同,该结构结合增强型Transformer模块,能够从分层Transformer编码器生成的多尺度特征中同时提取长距离依赖关系和局部上下文信息。得益于上述两项设计,MISSFormer在医学图像分割任务中展现出强大的能力,能够捕捉更具判别性的依赖关系与上下文信息。在多器官分割与心脏分割任务上的实验结果表明,所提出的MISSFormer具有显著的优越性、有效性与鲁棒性,其从零开始训练的模型性能甚至超越了在ImageNet上预训练的当前最先进方法。该模型的核心设计可推广至其他视觉分割任务。相关代码已开源,地址为:https://github.com/ZhifangDeng/MISSFormer。