9 天前

基于深度学习架构的糖尿病视网膜病变诊断

{Pablo Hernández-Cámara, Jorge Vila-Tomás, Regino Barranquero-Cardeñosa, Marcelino Martínez-Sober, Kevin N. Dietrich, Alberto Solano}
摘要

多年来,卷积神经网络(Convolutional Neural Networks, CNNs)在计算机视觉领域占据主导地位,尤其在医学图像处理中,诸如图像分割等任务广泛采用U-Net等网络结构。然而,基于自注意力机制的视觉Transformer(Vision Transformers, ViTs)的出现,似乎正在改变传统卷积运算的主导趋势。在本研究中,我们对比了多种网络架构——包括U-Net、ViTs以及ConvMixer——在医学语义分割任务中的表现。所有模型均在DRIVE数据集上从零开始训练,并在对应的私有测试集上进行评估,以判断各模型在分割任务中的性能优劣。本研究的主要贡献在于:表现最佳的模型(ConvMixer)融合了ViT的核心思想(将图像划分为块进行处理),同时保留了U-Net的底层构建模块(卷积操作)。这种混合架构不仅在性能上优于单独使用的ViTs(UNetR/Swin-Unet的DICE分数分别为0.80和0.80,标准差0.077)以及U-Net(DICE=0.82),达到了0.83的DICE分数,而且显著减少了模型参数量——仅为297万(2.97M),远低于UNetR(104M)、Swin-Unet(27M)和U-Net(31M)等模型。这一结果表明,在解决图像分割等任务时,无需盲目依赖大规模模型;通过合理组合最优结构组件,小型化但设计精良的网络架构同样能够取得更优的性能,从而为高效、轻量级医学图像分析提供了新的思路。