10 天前

用于下一代单细胞分析的大型语言模型扩展

Syed Asad Rizvi, Daniel Levine, Aakash Patel, Shiyang Zhang, Eric Wang, et al
用于下一代单细胞分析的大型语言模型扩展
摘要

单细胞RNA测序技术极大地推动了我们对细胞异质性的理解,然而当前的单细胞基础模型(scFMs)在可扩展性、跨多种任务的灵活性以及原生整合文本信息的能力方面仍存在局限。在本研究中,我们基于Cell2Sentence(C2S)框架——该框架将单细胞RNA测序(scRNA-seq)数据表示为文本形式的“细胞语句”——构建了一个大规模语言模型(LLM),其训练语料库涵盖超过十亿个词元的转录组数据、生物学文本及元数据。将模型规模扩展至270亿参数后,其在预测与生成能力方面均展现出持续提升,并能够支持需要跨多细胞情境整合信息的高级下游任务。通过结合现代强化学习技术进行针对性微调,模型在扰动响应预测、自然语言理解以及复杂生物学推理等任务中均表现出优异性能。这种强大的预测能力直接促成了一种双情境虚拟筛选,揭示了激酶抑制剂silmitasertib(CX-4945)存在显著的情境依赖性效应,提示其可能作为干扰素条件依赖的抗原呈递增强剂,具有协同增效潜力。在训练中未见的人类细胞模型中进行的实验验证进一步证实了该假设,表明C2S-Scale能够生成具有生物学依据、可验证的、情境依赖性的生物学发现。C2S-Scale在前所未有的规模上实现了转录组数据与文本信息的统一,超越了现有的专用单细胞模型与通用大语言模型,为下一代单细胞分析以及“虚拟细胞”的构建提供了全新平台。