2 months ago
CellFM:一种在1亿个人类细胞转录组数据上预训练的大规模基础模型
Yuansong Zeng, Jiancong Xie, Ningyuan Shangguan, Zhuoyi Wei, Wenbing Li, Yun Su, Shuangyu Yang, Chengyang Zhang, Jinbo Zhang, Nan Fang, Hongyu Zhang, Yutong Lu, Huiying Zhao, Jue Fan, Weijiang Yu, Yuedong Yang

摘要
单细胞测序提供了单细胞分辨率的转录组谱型分析,以前所未有的精度揭示了细胞异质性。然而,当前的单细胞数据分析仍受到固有数据噪声、批次效应和稀疏性的困扰,这突显了需要一个统一的模型来表示细胞状态。为了解决这一问题,许多近期的研究集中在基于大规模数据集训练单细胞基础模型上。然而,目前的人类基础模型仍然受限于训练数据量和模型参数的数量。在此研究中,我们收集了一个包含1亿个人类细胞的多样化数据集,并在该数据集上训练了一个包含8亿参数的单细胞基础模型(CellFM)。为了平衡效率和性能,该模型通过改进的RetNet框架在MindSpore平台上进行训练。大量实验表明,CellFM在细胞注释、扰动预测、基因功能预测以及基因-基因关系捕捉方面均优于现有模型。