OmniCellTOSG:首个用于联合 LLM 和 GNN 建模的细胞文本-组学信号图数据集
Heming Zhang, Tim Xu, Dekang Cao, Shunning Liang, Lars Schimmelpfennig, Levi Kaster, Di Huang, Carlos Cruchaga, Guangfu Li, Michael Province, Yixin Chen, Philip Payne, Fuhai Li
发布日期: 5/8/2025

摘要
复杂的细胞信号转导系统——受不同蛋白质丰度和相互作用的调控——在不同器官中产生不同的细胞类型。这些系统受年龄、性别、饮食、环境暴露和疾病等因素的影响而进化,由于涉及数以万计的基因和蛋白质,因此解码它们极具挑战性。近年来,数亿单细胞组学数据为理解不同细胞亚群和条件下的信号转导网络提供了坚实的基础。受大型基础模型(例如大型语言模型和大型视觉模型)在海量数据集上预训练的成功启发,我们推出了 OmniCellTOSG,这是第一个细胞文本组学信号图 (TOSG) 数据集。每个 TOSG 代表一个个体或元细胞的信号转导网络,并标记有器官、疾病、性别、年龄和细胞亚型等信息。OmniCellTOSG 提供了两项关键贡献。首先,它引入了一种新颖的图模型,将人类可读的注释(例如生物功能、细胞位置、信号通路、相关疾病和药物)与定量基因和蛋白质丰度数据相结合,从而能够通过图推理解码细胞信号传导。这种方法需要结合大型语言模型和图神经网络的新型联合模型。其次,该数据集基于来自不同组织和状况(健康和患病)的约1.2亿个细胞的单细胞RNA测序数据构建,并且与PyTorch完全兼容。这有助于开发创新的细胞信号传导模型,从而改变生命科学、医疗保健和精准医疗领域的研究。OmniCellTOSG数据集正在不断扩展,并将定期更新。数据集和代码可通过此https URL获取。