
摘要
深度学习正日益加速生物医学研究,通过神经网络实现图像分类、目标检测和语义分割等多种任务。然而,神经网络通常依赖大规模、带标签的数据集进行有监督训练。这一要求在生物医学图像识别领域带来了诸多挑战:生物医学数据集普遍规模较小,获取困难,标注成本高昂,且标签常呈现异质性。此外,异质标签问题对传统有监督方法构成显著障碍。当单个样本并非所有类别均被标注时,有监督深度学习方法只能基于各样本共有的标签子集进行学习,导致大量标注信息被浪费。因此,生物医学图像识别研究者在标签与真实标签(ground truth)的使用上必须格外谨慎,倡导“节俭标注”(frugal labeling)。本文探讨了节俭标注的影响,并提出一种基于新型目标函数的神经网络训练方法,用于在异质标签数据上实现多类别语义分割。该目标函数结合了类别非对称损失(class-asymmetric loss)与Dice损失,有效缓解了标签不完整和异质性带来的学习偏差。所提方法在三种典型场景中得到验证:(1)基于异质标签数据集的稀疏真实标签训练;(2)在迁移学习框架下的训练;(3)多个异质标签数据集的融合应用。为验证方法的有效性,本文采用一个小型、多类别生物医学语义分割数据集——heartSeg数据集,该数据集以青鳉鱼(medaka fish)的心脏为模型系统,具有重要的生物医学研究价值。自动化图像识别与语义分割技术可支持高通量实验,对推动生物医学研究至关重要。本文提出的框架与分析表明,在有监督训练范式下,该方法取得了具有竞争力的性能,同时为生物医学图像识别中的节俭标注策略提供了有力支持,具有重要的实践意义与推广价值。