谷歌DeepMind发布AlphaGenome:更全面预测DNA变异影响的深度学习模型
近日,谷歌DeepMind发布了一款名为AlphaGenome的人工智能工具,此工具能够在预测单个变异或人类DNA序列突变对一系列生物过程调节基因影响方面提供更为全面和精确的结果,有望解开基因组功能及疾病生物学的秘密,并推动新型生物发现和治疗方法的发展。以下是该工具的核心进展及其潜在应用领域。 AlphaGenome能够处理长达1百万字母(即碱基对)的DNA序列,并输出各个基因调控活动相关的分子特征预测,从而克服了此前模型只能在同一时间内分析有限片段的缺陷。它不仅预测基因从哪里开始到哪结束、RNA的剪切位置、产量以及哪些DNA碱基能接触其他碱基或被特定蛋白质结合,还首次明确提出从序列直接建模RNA剪接接头的位置和表达水平,这对于研究如肌肉萎缩症等罕见遗传病尤其重要。AlphaGenome采用大型公开联盟提供的数据集训练,这些联盟包括ENCODE、GTEx、4D Nucleome和FANTOM5,涵盖了数百种人类和小鼠细胞类型及组织的重要基因调控模式。 与前代相比,AlphaGenome的主要突破包括:一是通过高分辨率预测长输入序列,使模型能够涵盖远距离基因调控区域,同时捕捉细微的生物学细节;二是实现了综合多模态预测,AlphaGenome对长DNA序列的高决议预测能力意味着它可以预测最多样化的模态,为科学家提供了更详尽的基因调控复杂步骤信息;三是高效突变评分,在短时间内即可计算出某个基因变异对其所有预测特性的潜在影响;四是创新的剪接接头建模,可以直接从序列中明确地对剪接位点及其表达水平进行建模。 除了技术层面的进展之外,AlphaGenome在多个基准测试上也证明了其先进性,比如在预测哪些部分的DNA分子处于紧密状态、确定遗传变异是否增加或减少某基因表达、或者改变其剪接模式等方面的成绩均为前沿水平。此外,该工具在非编码变异的功能解读上展示巨大优势,尤其适用于研究那些具有显著效应的罕见变异,例如导致孟德尔遗传障碍的原因。 尽管AlphaGenome取得了重大进步,但它也有局限性。比如在准确捕捉超远距离(如超过10万碱基对之外)调控区域的影响方面仍有挑战存在;其次,当前版本未针对个体基因组预测设计,而是侧重于单个遗传变异的表现评价;最后,尽管可以预测分子层面的变化,但是关于遗传变异如何引导复杂病症的发生机制,仍然缺乏整体生物过程的深入理解。因此,DeepMind团队将继续改进模型并收集来自各界的反馈意见,以便解决现有差距。 为了使这一成果惠及全球科研界,DeepMind推出了AlphaGenome API的预览版供非商业用途的研究者使用。研究人员可通过社区论坛与其他使用者交流使用案例、提问或分享反馈,共同推进对基因组复杂细胞过程的理解,及其变异效应,驱动基因组学与健康医疗领域的新发现。 AlphaGenome的研发依托于深度学习技术,特别是先进的U-Net风格架构与变压器核技术。此模型基于大量实验数据训练而成,涵盖基因启动子识别、RNA剪接、染色质可及性和蛋白质结合等多种任务。行业专家认为,这类工具将对理解基因与疾病的关系产生重大影响,尤其是针对非编码区的复杂变异解析能力将极大促进癌症等疾病的精准医疗研究。谷歌DeepMind作为世界领先的人工智能研究机构之一,一直致力于利用AI技术解决重大生命科学难题,此次推出的AlphaGenome是其最新成就。