HyperAIHyperAI

Command Palette

Search for a command to run...

虚拟细胞挑战:利用AI预测基因沉默效果

Arc研究所最近发起了虚拟细胞挑战赛(Virtual Cell Challenge),旨在训练一个模型,用于预测在部分未知或未见过的细胞类型中通过CRISPR技术沉默特定基因后的影响。该挑战的核心目标是在计算环境中仿真模拟细胞的行为变化,从而加速药物研发过程。传统的生物实验成本高、耗时长且容易出错,而虚拟细胞挑战提供了一种在不接触培养皿的情况下测试大量药物候选物的可能性。 为了训练这个神经网络模型,Arc研究所已经整理了一个包含约30万个单细胞RNA测序谱型的数据集。这些数据主要由一个稀疏矩阵及相关的元数据构成。具体来说,有22万个细胞的转录组数据,每个细胞的转录组都是一个稀疏行向量,记录了对应基因编码的原始RNA分子的数量。其中大约3.8万个细胞为对照细胞,即没有通过CRISPR技术沉默任何基因的细胞。这些对照细胞在训练过程中起到了至关重要的作用,因为它们提供了未受干扰时的基准状态,有助于区分真正的基因影响与细胞间的自然差异。 基因表达水平的测量会破坏细胞,因此无法直接比较某个细胞在基因沉默前后的状态。这一问题类似于量子力学中的观察者效应。为了解决这个问题,研究人员必须利用一组对照细胞(基线细胞)作为参考点,分离出真正的信号 在虚拟细胞挑战之前,Arc研究所发布了一个名为STATE的基础系统,用于解决这一问题。STATE包括两个模型:状态转换模型(State Transition Model, ST)和状态嵌入模型(State Embedding Model, SE)。 状态转换模型(ST):ST是一个基于Transformer的简单模型,主要用于“细胞仿真”。它接受控制细胞的转录组或SE生成的细胞嵌入,以及代表待扰动基因的独热向量,输出扰动后的转录组。ST 使用最大均值差异(Maximum Mean Discrepancy, MMD)进行训练,目的是最小化两个概率分布之间的差异。通过选择协变量匹配的对照细胞集合及其配对的目标细胞集合,辅助模型更准确地捕捉到基因扰动的实际效果。 状态嵌入模型(SE):SE模型借鉴了BERT的思想,通过掩码预测任务训练,以生成有意义的细胞嵌入。为此,首先需要生成有意义的基因嵌入。基因由外显子(编码蛋白质的区域)和内含子(非编码蛋白质的区域)组成。基因首先被转录成前mRNA,然后通过剪接去除内含子并选择合适的外显子来生成不同的蛋白质异构体,类似于根据IKEA手册的不同部分制作不同对象。 参赛者的模型将通过三个评估指标进行评分:扰动判别能力(Perturbation Discrimination)、差异表达(Differential Expression)和平均绝对误差(Mean Average Error)。 Arc研究所的虚拟细胞挑战为药物研发提供了一种新的思路,利用计算模型预测基因沉默的效果,大大提高了研究效率。Arc的STATE模型作为强大的基础系统,已经在初步试验中展现出良好的性能,为后续研究奠定了坚实的基础。

相关链接

虚拟细胞挑战:利用AI预测基因沉默效果 | 热门资讯 | HyperAI超神经