
摘要
近年来,息肉分割任务日益受到重视,众多研究方法基于卷积神经网络(CNN)、视觉Transformer(Vision Transformer)及Transformer技术,取得了具有竞争力的性能。然而,这些方法在处理分布外(out-of-distribution)数据集、边界缺失以及小尺寸息肉等挑战时仍面临显著困难。2022年,Meta-Former被提出作为视觉任务的新基准模型,不仅提升了多任务计算机视觉的性能,还有效克服了Vision Transformer与CNN类骨干网络的固有局限性。为进一步提升分割精度,本文提出将Meta-Former与UNet架构相结合,并在解码器阶段引入一种多尺度上采样模块(Multi-scale Upsampling block),该模块采用层级融合策略,以增强纹理细节的恢复能力。同时,受Meta-Former思想启发,我们设计了一种新型Convformer模块,用于强化局部特征中的关键信息表达。上述模块能够有效融合全局信息(如息肉整体形态)与局部细节及边界信息,这对医学图像分割的准确决策至关重要。实验结果表明,所提方法在CVC-300、Kvasir及CVC-ColonDB数据集上均取得了具有竞争力的性能,尤其在CVC-300与CVC-ColonDB这两个分布外数据集上取得了当前最优(State-of-the-Art)结果。除Kvasir-SEG外,其余数据集均为分布外测试集。代码实现已开源,详见:https://github.com/huyquoctrinh/MetaPolyp-CBMS2023。