17 天前

SegFormer3D:一种用于3D医学图像分割的高效Transformer

Shehan Perera, Pouyan Navard, Alper Yilmaz
SegFormer3D:一种用于3D医学图像分割的高效Transformer
摘要

基于视觉Transformer(Vision Transformers, ViTs)架构的模型在三维医学图像(3D Medical Image, MI)分割任务中代表了重大进展,其通过增强全局上下文理解能力,显著超越了传统的卷积神经网络(Convolutional Neural Networks, CNN)模型。尽管这一范式转变显著提升了三维分割性能,但当前最先进的架构通常需要极为庞大且复杂的模型结构,并依赖大规模计算资源进行训练与部署。此外,在医学影像中常见的数据集规模有限的背景下,过大的模型往往在模型泛化能力和收敛性方面面临挑战。为应对上述问题,并证明轻量化模型在三维医学图像分割领域具有重要的研究价值,本文提出SegFormer3D——一种分层式Transformer架构,能够跨多尺度体素特征计算注意力机制。同时,SegFormer3D摒弃了复杂的解码器结构,采用全MLP(多层感知机)解码器,有效融合局部与全局注意力特征,生成高精度的分割掩码。所提出的轻量级Transformer在紧凑的模型设计中保持了远超其规模的性能表现。SegFormer3D通过将参数量减少33倍、计算量(GFLOPS)降低13倍,显著降低了对硬件资源的需求,从而推动了深度学习在三维医学图像分割中的普惠化应用。我们在三个广泛使用的基准数据集(Synapse、BRaTs和ACDC)上对SegFormer3D进行了全面评估,结果表明其性能与当前最先进(State-of-the-Art, SOTA)模型相当,具备良好的竞争力。代码开源地址:https://github.com/OSUPCVLab/SegFormer3D.git