17 天前
基于混合双金字塔Transformer-CNN的注意力门控重思考:面向医学影像泛化分割
Fares Bougourzi, Fadi Dornaika, Abdelmalik Taleb-Ahmed, Vinh Truong Hoang

摘要
受Transformer在计算机视觉领域取得成功的启发,Transformer架构已被广泛应用于医学图像分割任务。然而,现有的大多数Transformer模型通常仅将近期提出的Transformer架构作为编码器,或与CNN编码器并行使用。本文提出一种新型的混合CNN-Transformer分割架构(PAG-TransYnet),旨在高效构建强大的CNN-Transformer编码器。该方法在双金字塔混合编码器中引入注意力门机制,其主要贡献可归纳为三个方面:(i)采用金字塔输入策略,突出不同尺度下的显著特征;(ii)引入PVT(Pyramid Vision Transformer)以捕捉多分辨率下的长程依赖关系;(iii)设计双注意力门机制,有效融合CNN分支与Transformer分支提取的显著特征。在多个分割任务上的全面评估表明,所提出方法在腹部多器官分割、感染病灶分割(包括新冠感染与骨转移)、显微组织分割(腺体与细胞核)等任务中均取得了当前最优性能,并展现出卓越的泛化能力。本研究为应对医学图像分割领域对高效、可适应解决方案的迫切需求,提供了重要进展。