摘要
自视觉Transformer(Vision Transformer)在医学图像领域展现出卓越性能以来,基于Transformer的方法已成为该领域的主流。尽管基于Transformer的方法有效解决了卷积神经网络(CNN)固有的长距离依赖建模难题,但在捕捉局部细节信息方面仍存在不足。近年来,研究重点逐渐转向如何稳健地融合局部细节与语义信息。为应对这一挑战,本文提出一种新型的Transformer-CNN混合网络——RAPUNet。该方法以MetaFormer作为Transformer主干网络,并引入一种自定义的卷积模块——RAPU(并行残差与空洞卷积单元,Residual and Atrous Convolution in Parallel Unit),以增强局部特征表达,缓解局部与全局特征融合过程中的信息失配问题。我们在多个经典的息肉分割基准数据集上对RAPUNet的分割性能进行了评估,包括Kvasir-SEG、CVC-ClinicDB、CVC-ColonDB、EndoScene-CVC300以及ETIS-LaribPolypDB。实验结果表明,所提模型在平均Dice系数和平均交并比(IoU)指标上均表现出具有竞争力的性能。尤其在CVC-ClinicDB数据集上,RAPUNet超越了当前最先进的方法。代码已开源:https://github.com/hyunnamlee/RAPUNet。