当地时间 5 月 8 日,Google DeepMind 联合其子公司 Isomorphic Labs 重磅发布 AlphaFold 3 。
DeepMind 表示,AlphaFold 3 以前所未有的精确度成功预测了所有生命分子(蛋白质、 DNA 、 RNA 、配体等)的结构和相互作用。与现有的预测方法相比,AlphaFold 3 发现蛋白质与其他分子类型的相互作用至少提高了 50%,而对于某些重要的相互作用类别,其预测准确率提高了一倍。
关注 AI for Science 的读者对于 AlphaFold 肯定不陌生,首次面世便获得了「里程碑式突破」的赞誉。 AlphaFold 2 在 2021 年被 Science 评为「年度突破」,被 Nature 评为「年度方法」,一路领先,不断突破 AI + 生物学的应用极限。
如今,AlphaFold 3 再一次刷新了人们的认知,其是如何实现「所有生命分子皆可预测」的?在技术与性能上有了哪些突升级?脱胎于 DeepMind 的 Isomorphic Labs 又扮演着什么样的角色?
研究人员对 AlphaFold 2 的结构和训练程序进行了重大改进,以适应更通用的化学结构,并提高了模型学习的数据效率。如今,给定一个分子输入列表,AlphaFold 3 就能生成它们的联合三维结构,并揭示它们是如何组合在一起的。
如上图所示,AlphaFold 3 的整体结构与 AlphaFold 2 类似,都有一个大的主干,用于演化化学复合物的配对 representation 。 AlphaFold 3 用更简单的 Pairformer 模块取代了 AlphaFold 2 的 Evoformer,从而减少了多序列比对 (multiple sequence alignment, MSA) 处理量,MSA 模块数量减少到了 4 个。 AF3 的 MSA representation 处理使用了成本更低的成对加权平均法 (pair-weighted averaging),并且只有成对表示用于后面的处理步骤。
研究人员在 AlphaFold 2 中观察到,去除结构模块 (Structure Module) 的大部分复杂性对预测准确性的影响不大,而保留 backbone 框架和侧链扭转表示法 (side chain torsion representation) 会增加一般分子图 (general molecular graphs) 的复杂性。
因此在 AlphaFold 3 中,工程师利用扩散模块 (Diffusion Module) 直接预测原始原子坐标,取代了根据氨基酸特定框架和侧链扭转角进行操作的 AlphaFold 2 结构模块,后者利用配对 representation 生成明确的原子位置。扩散过程的多尺度性质(低噪音水平诱导网络改善局部结构)也能够消除立体化学 (stereochemical) 损失,并对网络中的 bonding patterns 进行特殊处理,从而轻松面对任意化学成分。
具体而言,扩散模块能够直接对原始原子坐标和粗略的抽象标记表示法进行操作,不需要旋转框架或任何等变量处理。研究人员先训练扩散模型接收「噪声」原子坐标,然后预测真实坐标。这一过程要求模型学习各种长度尺度的蛋白质结构,其中小噪声下的去噪任务强调理解非常局部的立体化学,而高噪声下的去噪任务则强调系统的大尺度结构。
在推理时,模型先对随机噪声进行采样,然后进行循环去噪,以生成最终结构。值得一提的是,AlphaFold 3 是一种生成式训练程序,可产生答案分布。这意味着,对于每一个答案,即使模型对其位置不确定,同样也能够确定其局部结构(如侧链键的几何形状)。因此,AlphaFold 3 既能避免基于扭转的残基参数化,又能避免结构上的违规损失,同时还能处理一般配体的复杂性。
如上图所示,在预测 Protein-dsDNA(蛋白质与双链 DNA 相互作用)的性能对比中,AlphaFold 3 的成功率达到了 64.8% 的成功率,而 RosettaAlphaFold2NA 只有 28.3% 。在 Protein-Antibody(蛋白质和抗体之间的相互作用)预测中,AlphaFold 3 的准确成功率达 62.9%,而其他系统只有 29.6% 。
* RosettaAlphaFold2NA 结合了 Rosetta 的经典建模技术与 AlphaFold 2 。
在 AlphaGo 击败国际围棋高手李世石之后,「Alpha 系列」正式走入了人们的视野之中。据 DeepMind 介绍,同样是在 2016 年,几乎就是在 AlphaGo 名声大噪之后,团队便开始了针对蛋白质折叠问题的研究。
在 2018 年底的第 13 届 CASP (Critical Assessment of protein Structure Prediction) 中,AlphaFold 在 98 名参赛者中名列榜首,准确地从 43 种蛋白质中预测出了 25 种蛋白质的结构。而同组比赛中获得第二名的参赛者仅准确预测出了 3 种。
彼时,「初代」AlphaFold 便已经展现出了惊人的实力,AlphaFold 1 是基于数千已知的蛋白质进行训练的,利用神经网络来预测氨基酸对之间的距离,以及连接它们的化学键之间的角度,进而通过调整初步结构以找到能效最高的排列。
但是团队发现,AlphaFold 1 的方法结合了局部物理 (local physics ) 和从模式识别中得出的导向势能 (guide potential),与沿链上相距较远的残基之间的相互作用相比,这种方法倾向于过度考虑序列中邻近残基之间的相互作用。因此,AlphaFold 1 倾向于选择二级结构(secondary structure, α 螺旋和 β 片层)略多于实际情况的模型(一种过拟合)。
从技术的角度来看,AlphaFold 1 所使用的软件设计包含多个模块,每个模块都经过单独训练,用于生成导向势能,然后与基于物理的能量势能 (energy potential) 相结合。
所以,2020 年面世的 AlphaFold 2 将子网络系统 (sub-networks) 与单一的可微分端到端模型 (single differentiable end-to-end model) 结合在一起,该系统完全基于模式识别 (pattern recognition),以集成的方式作为一个单一的集成结构进行训练。
AlphaFold 2 实现了蛋白质单体结构的高准确度预测,随后,DeepMind 团队进一步将目光放到了复合物的预测上。 2021 年 10 月,DeepMind 发布了一个名为 AlphaFold-Multimer 的更新,其基于 AlphaFold 2 进行了拓展,可以对多种蛋白质的复合物进行建模。
一键部署 AlphaFold 2 教程:
https://openbayes.com/console/public/tutorials/m6k2bdSu30C
研究人员对 4,433 个蛋白复合物进行测试,分别考察了 AlphaFold-Multimer 在异源多聚体和同源多聚体接触界面的预测准确率,分别达到 67% 和 69%,高度精确预测的例数分别占到 23% 和 34% 的比例。
随后,沉寂了两年的 AlphaFold 再次惊艳众人,除了在蛋白质结构预测准确性上再进一步之外,更加新增了 RAN 预测能力。 2023 年 10 月的最后一天,DeepMind 发布了 AlphaFold 的最新进展(论文将其称为 AlphaFold-latest,如今看来就是 AlphaFold 3)。
论文地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/a-glimpse-of-the-next-generation-of-alphafold/alphafold_latest_oct2023.pdf
DeepMind 表示,新一代 AlphaFold 模型可以预测蛋白质数据库 (PDB) 中的几乎所有分子,其预测精度可以达到原子级, 不仅开启了对多个关键生物大分子类别的全新理解,还显著提升了预测准确性。这些生物大分子类别包括配体(小分子)、蛋白质、核酸(DNA 和 RNA)以及具有翻译后修饰 (PTM) 的生物大分子。
千呼万唤始出来,自 2023 年底便吊足了大家胃口的新一代 AlphaFold 3 终于露面,其能力显然并没有令业界与学术界失望,但后续仍有更加重要的事项需要多方共同努力推进——如何令 AlphaFold 3 走出实验室、走进制药产线,如何令更多的科研团队能够利用这一先进工具优化研究进程等工作,仍然需要持续的关注和投入。
值得注意的是,AlphaFold 3 的发布中还出现了一个不得忽视的团队——Isomorphic Labs 。
这个脱胎于 DeepMind 的企业成立于 2021 年 11 月,其名字灵感来源于生物学与信息科学间潜在的同构映射。依托 AlphaFold,Isomorphic Labs 聚焦于 AI 医药领域,使命是利用人工智能和机器学习方法来加速和改善药物发现过程,以便为人类一些最具破坏性的疾病找到治疗方法。
2022 年 5 月,Isomorphic Labs 对外宣布了其第一阶段的管理团队成员,可谓是星光熠熠。
被称为「阿尔法围棋之父」的 Demis Hassabis 担任公司的首席执行官;首席科学官是 Miles Congreve,曾参与设计了 20 种经过临床评估的药物,并且是 Kisqali® (Ribociclib)(一种已上市的乳腺癌治疗药物)的共同发明者;首席技术官 Sergei Yakneen,则横跨工程、机器学习、产品、生命科学和医学研究领域,拥有超过 20 多年的丰富经验;牛津大学博士 Max Jaderberg 担任机器学习总监…..
总部位于伦敦的 Isomorphic 公司在成立大约 2 年的时间里,除了最初官宣的管理团队外,并没有其他工作消息传出。直到 2023 年的 Endpoints News 的独家采访,Demis Hassabis 才首次表明了他对 Isomorphic 的愿景。
在采访中,谈到 2021 年 11 月以来公司的主要工作时,Demis Hassabis 表示,「我们首先关注小分子领域,这是我们能够最快发挥作用的领域。然后,我们对相互作用空间也非常感兴趣(蛋白质-配体相互作用、蛋白质-蛋白质相互作用以及生物学的动态本质)。此外还要进入化学空间,了解化合物结构、它们如何与靶标结合、结合亲和力等。」
关于目前是否正在与行业合作建立管道,Demis Hassabis 表示「我们会选择认为特别适合我们技术路线图的目标和计划,并与大型制药公司就有趣的目标进行合作,更多信息可以在晚些时候进行披露。」
2024 年 1 月,Isomorphic Labs 宣布与礼来和诺华达成两项价值 30 亿美元的药物研发协议。 Demis Hassabis 透露,「虽然此前 Isomorphic 也与其他大型制药公司进行了初步谈判,但礼来和诺华有很大的合作诚意。」同时,这次合作的首要目标很明显:制造药物,而非局限于试点项目或学术合作。
具体而言,与礼来公司合作,涉及针对多种疾病相关蛋白和途径的治疗方法的研发。对此,Demis Hassabis 强调:「将我们的专有技术平台、下一代 AlphaFold 以及大规模计算能力应用到礼来的开发项目中,将会共同推进突破性的药物设计。」
与诺华的合作的重点是发现针对三个未公开靶点的小分子疗法。诺华生物医学研究总裁 Fiona Marshall 表示:「这项合作结合两家公司的独特优势,从人工智能、数据科学到药物化学、深厚的疾病领域专业知识,推动了 AI 驱动药物发现的新可能。」
如今,AlphaFold 3 的发布势必会进一步增强 Isomorphic Labs 的技术实力,但从应用的角度出发,近年来,AI 制药的投资热潮有所下降,面对高昂的研发成本,如何将先进技术转化为实际产出是关乎企业未来走向的重要问题,在 DeepMind 的强大后盾助力下,我们也希望能够早日看到 AlphaFold 3 真正落地产业。
AlphaFold 3 作为第一个超越基于物理的生物分子结构预测工具的 AI 系统,目前没有开源完整代码的计划。但研究团队为该模型发布了一个支持非商业性研究的 AlphaFold Server 的公共接口,向全球科研人员敞开了大门。
访问 AlphaFold Server 官网:
alphafoldserver.com
只需轻点几下鼠标,生物学家就可以利用 AlphaFold 3 为由蛋白质、 DNA 、 RNA 以及选择的配体、离子和化学修饰组成的结构进行建模,预测蛋白质如何与细胞中的其他分子相互作用。该平台可以帮助科学家提出新颖的假设,以便在实验室进行测试,加快工作流程,无论科学家是否具备足够的计算资源或机器学习方面的专业知识,都可以使用。
对此,Francis Crick 研究所 Uhlmann 实验室的研究科学家 Céline Bouchoux 赞誉道:「有了 AlphaFold Server,其不再仅仅是预测结构,而是慷慨地提供访问权限:允许研究人员提出大胆的问题,并加速发现 。」
毫无疑问,AlphaFold 3 的问世不仅是科学探索的一项重大飞跃,更是开启生物医药研发新纪元的关键工具。它在模拟多种不同类型的分子相互作用方面取得了重大突破,这对精准确定药物靶点等研发项目至关重要。
DeepMind 团队对其充满了期待:「我们刚刚开始挖掘 AlphaFold 3 的潜力,迫不及待地想看看未来会发生什么。」
参考资料:
1.https://cloud.tencent.com/developer/article/2017961
2.https://hub.baai.ac.cn/view/31181
3.https://zh.wikipedia.org/wiki/AlphaFold
4.https://mp.weixin.qq.com/s/18cNw-E-5vU3vKb1J4WWKg