摘要
细胞电子显微镜(EM)数据集的自动化分割仍是当前面临的重大挑战。依赖感兴趣区域(ROI)标注的监督式深度学习(DL)方法所训练出的模型,难以泛化至无关数据集。而新兴的无监督深度学习算法虽无需标注,但通常需要相关预训练图像;然而,当前可用的EM数据集进行预训练计算成本高昂,且在面对未见的生物情境时表现价值有限,原因在于这些数据集规模庞大且具有高度同质性。为解决这一问题,我们提出了CEM500K——一个轻量级(25 GB)、包含50万张独特细胞EM图像的高质量数据集,其图像源自超过100个相互独立的成像项目,涵盖近600个三维(3D)和约10,000个二维(2D)图像。我们证明,基于CEM500K预训练的模型能够学习到具有生物学意义且对有意义图像增强具有鲁棒性的特征表示。尤为重要的是,我们在六个公开可用及一个新构建的基准分割任务上评估了这些预训练模型的迁移学习性能,并在每一项任务上均取得了当前最优(state-of-the-art)结果。我们已公开发布CEM500K数据集、预训练模型及图像筛选与整理流程,以支持电子显微镜领域研究者开展模型构建与数据集扩展工作。