17 天前

HiFuse:用于医学图像分类的分层多尺度特征融合网络

Xiangzuo Huo, Gang Sun, Shengwei Tian, Yan Wang, Long Yu, Jun Long, Wendong Zhang, Aolun Li
HiFuse:用于医学图像分类的分层多尺度特征融合网络
摘要

在卷积神经网络(CNN)的推动下,医学图像分类技术取得了迅速发展。然而,由于卷积核感受野大小固定,难以有效捕捉医学图像的全局特征。尽管基于自注意力机制的Transformer能够建模长距离依赖关系,但其计算复杂度较高,且缺乏局部归纳偏置。大量研究表明,全局与局部特征对于图像分类至关重要。然而,医学图像通常包含大量噪声、分散的特征,以及类内差异大、类间相似性高的问题。为此,本文提出一种名为HiFuse的三分支分层多尺度特征融合网络结构,用于医学图像分类。该方法通过多尺度分层架构,有效融合Transformer与CNN的优势,同时保持各自建模能力,从而提升多种医学图像的分类精度。网络设计了一个并行的局部与全局特征模块层次结构,能够高效地在不同语义尺度上提取局部特征与全局表征,具备灵活的多尺度建模能力,并具有与图像尺寸呈线性关系的计算复杂度。此外,本文还设计了一种自适应分层特征融合模块(HFF模块),用于综合利用不同层次所获得的特征。HFF模块包含空间注意力、通道注意力、残差反向MLP(多层感知机)以及捷径连接,能够自适应地融合各分支在不同尺度下的语义信息。在ISIC2018数据集上,所提模型的分类准确率较基线模型提升7.6%;在Covid-19数据集上提升21.5%;在Kvasir数据集上提升10.4%。相较于其他先进模型,HiFuse在各项指标上均表现最优。本文代码已开源,可通过 https://github.com/huoxiangzuo/HiFuse 获取。