HyperAI超神经
Back to Headlines

虚拟细胞挑战:利用AI预测基因沉默效果

9 hours ago

Arc研究所最近发起了虚拟细胞挑战赛(Virtual Cell Challenge),旨在训练一个模型,用于预测在部分未知或未见过的细胞类型中通过CRISPR技术沉默特定基因后的影响。该挑战的核心目标是在计算环境中仿真模拟细胞的行为变化,从而加速药物研发过程。传统的生物实验成本高、耗时长且容易出错,而虚拟细胞挑战提供了一种在不接触培养皿的情况下测试大量药物候选物的可能性。 训练数据 为了训练这个神经网络模型,Arc研究所已经整理了一个包含约30万个单细胞RNA测序谱型的数据集。这些数据主要由一个稀疏矩阵及相关的元数据构成。具体来说,有22万个细胞的转录组数据,每个细胞的转录组都是一个稀疏行向量,记录了对应基因编码的原始RNA分子的数量。其中大约3.8万个细胞为对照细胞,即没有通过CRISPR技术沉默任何基因的细胞。这些对照细胞在训练过程中起到了至关重要的作用,因为它们提供了未受干扰时的基准状态,有助于区分真正的基因影响与细胞间的自然差异。 挑战建模 基因表达水平的测量会破坏细胞,因此无法直接比较某个细胞在基因沉默前后的状态。这一问题类似于量子力学中的观察者效应。为了解决这个问题,研究人员必须利用一组对照细胞(基线细胞)作为参考点,分离出真正的信号——基因沉默的效果。正式模型可以表述为: [ \hat{X}p \sim \hat{T}_p(\mathcal{D}{\text{basal}}) + H(\mathcal{D}{\text{basal}}) + \varepsilon, \quad \varepsilon \sim P\varepsilon ] 其中 ( \hat{T}_p ) 是基因扰动的效应,( H ) 表示细胞自然差异的噪声, ( \varepsilon ) 是其他随机误差。 Arc的基础方法:STATE 在虚拟细胞挑战之前,Arc研究所发布了一个名为STATE的基础系统,用于解决这一问题。STATE包括两个模型:状态转换模型(State Transition Model, ST)和状态嵌入模型(State Embedding Model, SE)。 状态转换模型(ST) ST是一个基于Transformer的简单模型,主要用于“细胞仿真”。它接受控制细胞的转录组或SE生成的细胞嵌入,以及代表待扰动基因的独热向量,输出扰动后的转录组。ST 使用最大均值差异(Maximum Mean Discrepancy, MMD)进行训练,目的是最小化两个概率分布之间的差异。通过选择协变量匹配的对照细胞集合及其配对的目标细胞集合,辅助模型更准确地捕捉到基因扰动的实际效果。 状态嵌入模型(SE) SE模型借鉴了BERT的思想,通过掩码预测任务训练,以生成有意义的细胞嵌入。为此,首先需要生成有意义的基因嵌入。基因由外显子(编码蛋白质的区域)和内含子(非编码蛋白质的区域)组成。基因首先被转录成前mRNA,然后通过剪接去除内含子并选择合适的外显子来生成不同的蛋白质异构体,类似于根据IKEA手册的不同部分制作不同对象。 生成单个基因嵌入的过程如下: 1. 获取基因编码的所有蛋白质异构体的氨基酸序列。 2. 将这些序列输入ESM2(FAIR的研究成果,拥有150亿参数的蛋白质语言模型),生成每个氨基酸的嵌入。 3. 对每个氨基酸的嵌入进行均值池化,得到相应的“转录”或蛋白质异构体的嵌入。 4. 再次对所有蛋白质异构体的嵌入进行均值池化,得到基因嵌入。 5. 使用学到的编码器将基因嵌入投影到模型维度。 为了生成细胞嵌入,Arc选择了每个细胞中按对数倍数表达水平排名的前2048个基因,并构建了一个“细胞句子”: [ \tilde{\mathbf{c}}^{(i)} = \left[\mathbf{z}{\text{cls}}, \tilde{\mathbf{g}}_1^{(i)}, \tilde{\mathbf{g}}_2^{(i)}, \ldots, \tilde{\mathbf{g}}_L^{(i)}, \mathbf{z}{\text{ds}}\right] ] 其中,[CLS] 和 [DS] 令牌分别用于生成细胞嵌入和剥离数据集特定的影响。为了进一步优化每个基因的表达强度,Arc使用了一种软分箱算法和两个多层感知机,将“表达编码”添加到每个基因嵌入中。 评估指标 参赛者的模型将通过三个评估指标进行评分:扰动判别能力(Perturbation Discrimination)、差异表达(Differential Expression)和平均绝对误差(Mean Average Error)。前两个指标尤为关键: 扰动判别能力 这个指标评估模型能够正确发现扰动之间相对差异的程度。具体方法是计算测试集中所有扰动转录组(预测的真实转录组和其它扰动转录组)之间的曼哈顿距离,并对其进行排序: [ r_t = \sum_{p \neq t} \mathbf{1}{d(\hat{y}_t, y_p) < d(\hat{y}_t, y_t)} ] 归一化得分: [ \text{PDisc}_t = \frac{r_t}{T} ] 总分则是所有 ( \text{PDisc}_t ) 的平均值,再通过 ( 1 - 2\text{PDisc} ) 规范化,最终得分为0表示完美匹配。 差异表达 差异表达评估模型正确识别真正受影响基因的能力。方法是计算每种基因的p值,使用Wilcoxon秩和检验(带校正)对预测和真实扰动分布进行比较,再应用Benjamini-Hochberg程序调节p值,处理假阳性问题。最终得分计算方式如下: - 如果预测的差异表达基因数量小于真实值,取交集并除以真实数量。 - 如果预测数量大于真实值,选择最自信的预测进行交集计算。 结论 如果你对这项挑战感兴趣,Arc提供了详细的Colab笔记本,帮助你从头开始训练他们的STATE模型。此外,未来几个月内,STATE模型将登陆Transformers库,启动预训练模型的步骤非常简单。希望所有参赛者都能取得优异的成绩! 业内人士评价 Arc研究所的虚拟细胞挑战为药物研发提供了一种新的思路,利用计算模型预测基因沉默的效果,大大提高了研究效率。Arc的STATE模型作为强大的基础系统,已经在初步试验中展现出良好的性能,为后续研究奠定了坚实的基础。

Related Links