
摘要
在计算资源受限的场景下,高效且有效的解码机制对于医学图像分割至关重要。然而,传统的解码机制通常伴随着较高的计算开销。为应对这一挑战,本文提出一种新型高效的多尺度卷积注意力解码器——EMCAD(Efficient Multi-scale Convolutional Attention Decoder),旨在兼顾模型性能与计算效率。EMCAD引入了一种独特的多尺度逐通道卷积模块,通过多尺度卷积显著增强特征图的表达能力。同时,EMCAD融合了通道、空间以及分组(大卷积核)门控注意力机制,能够有效捕捉复杂的空间依赖关系,并聚焦于关键区域。得益于分组卷积与逐通道卷积的设计,EMCAD具有极高的计算效率,且具备良好的可扩展性:在使用标准编码器时,仅需191万参数(1.91M)和381亿浮点运算量(0.381G FLOPs)。在涵盖六类医学图像分割任务的12个公开数据集上进行的全面评估表明,EMCAD在实现当前最优(SOTA)性能的同时,参数量(#Params)和浮点运算量(#FLOPs)分别降低了79.4%和80.3%。此外,EMCAD对不同编码器具有良好的适应性,并能广泛适用于多种分割任务,展现出强大的通用性。这些优势使其成为推动医学图像分析向更高效、更精准方向发展的重要工具。项目代码已开源,可通过 https://github.com/SLDGroup/EMCAD 获取。