
摘要
基于深度学习的组织病理图像分类是辅助医生提高癌症诊断准确性与及时性的一项关键技术。然而,在复杂的手动标注过程中,噪声标签往往不可避免,进而误导分类模型的训练过程。针对这一问题,本文提出一种新型的、面向困难样本的噪声鲁棒学习方法,用于组织病理图像分类。为区分具有信息量的困难样本与有害的噪声样本,我们基于样本的训练历史构建了一个易/难/噪(Easy/Hard/Noisy, EHN)检测模型。随后,将该EHN检测机制集成至自训练架构中,通过逐步修正标签来降低数据集中的噪声比例。在获得近似纯净的数据集后,我们进一步提出一种噪声抑制与困难样本增强(Noise Suppressing and Hard Enhancing, NSHE)策略,以训练具备噪声鲁棒性的分类模型。与现有方法相比,本方法能够保留更多高质量的干净样本,并可直接应用于真实世界中的噪声数据集场景,无需依赖独立的干净样本子集。实验结果表明,所提出的方案在合成噪声数据集与真实世界噪声数据集上均显著优于当前最先进的方法。相关源代码与数据集已开源,地址为:https://github.com/bupt-ai-cz/HSA-NRL/。