8 天前

用于具有形态学属性以实现可解释性的白血细胞检测的大规模多领域白血病数据集

Abdul Rehman, Talha Meraj, Aiman Mahmood Minhas, Ayisha Imran, Mohsen Ali, Waqas Sultani
用于具有形态学属性以实现可解释性的白血细胞检测的大规模多领域白血病数据集
摘要

早期诊断白血病每年可挽救成千上万患者的生命。然而,若缺乏白细胞(WBC)的形态学信息,白血病的预后判断将面临巨大挑战,且目前依赖昂贵显微镜的可及性以及血液科医生对周围血样本(PBS)进行分析的能力。基于深度学习的方法可为血液科医生提供有效辅助,但这类算法通常需要大量标注数据,而此类数据目前难以获取。为克服这一限制,我们构建了一个真实、通用且规模庞大的数据集。为实现面向实际应用的全面数据采集,本研究采用两台来自不同价格区间的显微镜(高成本显微镜HCM与低成本显微镜LCM),在三种放大倍率(100×、40×、10×)下,通过多种传感器(HCM采用高端相机,LCM采用中端相机,两者均辅以手机摄像头)进行图像采集。其中,高端相机价格为中端相机的47倍,HCM设备价格则为LCM的17倍。在高分辨率(100×)下使用HCM采集的图像中,经验丰富的血液科医生对2.4千张来自多位白血病患者PBS样本的图像进行了标注,共识别出10,300个白细胞类型(共14类)及各类伪影,并生成了5.5万个形态学标签(包括细胞大小、核染色质、核形态等)。随后,这些标注信息被迁移至HCM的另外两个放大倍率以及LCM的三个放大倍率所采集的图像上,实现了跨设备、跨分辨率的标注一致性。基于该数据集,我们构建了名为LeukemiaAttri的公开数据集,并提供了多种目标检测器的基线模型以及无监督域自适应(UDA)策略,同时支持基于形态学特征的属性预测任务。该数据集将在论文正式发表后向公众开放,以推动该领域相关研究的深入发展。

用于具有形态学属性以实现可解释性的白血细胞检测的大规模多领域白血病数据集 | 最新论文 | HyperAI超神经