HyperAI超神经

CellFM:在一亿个人类细胞转录组数据上预训练的大规模基础模型

Yuansong Zeng, Jiancong Xie, Ningyuan Shangguan, Zhuoyi Wei, Wenbing Li, Yun Su, Shuangyu Yang, Chengyang Zhang, Jinbo Zhang, Nan Fang, Hongyu Zhang, Yutong Lu, Huiying Zhao, Jue Fan, Weijiang Yu, Yuedong Yang
发布日期: 6/6/2025
CellFM:在一亿个人类细胞转录组数据上预训练的大规模基础模型
摘要

单细胞测序提供了单细胞分辨率的转录组表达图谱,使研究人员能够以前所未有的精度揭示细胞异质性。然而,当前的单细胞数据分析仍受到数据噪声、批次效应(batch effects)和稀疏性等固有问题的影响,亟需一个统一的模型来精准表征细胞状态。为应对这一挑战,近年来大量研究尝试基于大规模数据训练单细胞基础模型(foundation model)。但目前的人类单细胞基础模型仍受限于训练数据规模和模型参数量。为此,我们构建了一个包含 1 亿个人类细胞 的多样性数据集,并在此基础上训练了一个拥有 8 亿参数 的单细胞基础模型——CellFM。该模型基于 MindSpore 框架,并使用改进后的 RetNet 架构以实现效率与性能的平衡。大量实验证明,CellFM 在多个关键任务中表现优于现有模型,包括:细胞注释、扰动预测、基因功能预测以及基因-基因关系的建模与识别。