6 个月前

摘要

大多数聚类分割方法均以卷积神经网络（CNN）作为主干网络，这在编码器与解码器之间进行信息交换时带来了两个关键问题：其一，未能充分考虑不同层级特征之间的贡献差异；其二，缺乏有效的特征融合机制。与现有基于CNN的方法不同，本文采用Transformer编码器，以学习更具表达力和鲁棒性的特征表示。此外，考虑到内窥镜图像采集过程中的成像干扰以及息肉本身具有的隐蔽性特征，我们引入了三个标准模块：级联融合模块（Cascaded Fusion Module, CFM）、伪装识别模块（Camouflage Identification Module, CIM）和相似性聚合模块（Similarity Aggregation Module, SAM）。其中，CFM用于从高层特征中提取息肉的语义与空间位置信息；CIM用于捕捉被隐藏在低层特征中的息肉信息；SAM则将高层语义位置信息扩展至整个息肉区域，从而实现对跨层级特征的有效融合。所提出的模型名为Polyp-PVT，能够有效抑制特征中的噪声，并显著提升其表达能力。在五个广泛采用的公开数据集上进行的大量实验表明，该模型在应对各类挑战性场景（如外观变化、小目标、旋转等）时，相较于现有代表性方法展现出更强的鲁棒性。该模型代码已开源，可访问 https://github.com/DengPingFan/Polyp-PVT。

源 PDF