
摘要
医学图像分割在计算机辅助诊断中具有重要意义。良好的分割需要模型同时具备宏观视角和精细细节的识别能力,即在保持高空间分辨率的同时学习包含大范围上下文的图像特征。为了实现这一目标,最广泛使用的方法——U-Net及其变体——提取并融合多尺度特征。然而,这些融合后的特征仍然具有较小的“有效感受野”,主要关注局部图像线索,限制了其性能。在本研究中,我们提出了一种基于变压器(transformers)的替代分割框架Segtran,该框架即使在高特征分辨率下也具有无限的“有效感受野”。Segtran的核心是一种新颖的压缩与扩展变压器(Squeeze-and-Expansion transformer):一个压缩注意力块对变压器的自注意力进行规范化,而一个扩展块则学习多样化的表示。此外,我们还提出了一种新的变压器位置编码方案,为图像施加连续性的归纳偏置。实验在2D和3D医学图像分割任务上进行:包括眼底图像中的视盘/视杯分割(REFUGE'20挑战赛)、结肠镜图像中的息肉分割以及MRI扫描中的脑肿瘤分割(BraTS'19挑战赛)。与现有的代表性方法相比,Segtran始终实现了最高的分割精度,并表现出良好的跨域泛化能力。Segtran的源代码已发布在https://github.com/askerlee/segtran。