Prot42:面向目标识别的蛋白质结合体生成的新型蛋白语言模型家族
Mohammad Amaan Sayeed, Engin Tekin, Maryam Nadeem, Nancy A. ElNaker, Aahan Singh, Natalia Vassilieva, Boulbaba Ben Amor
发布日期: 6/5/2025

摘要
要实现下一代生物技术和治疗创新的突破,必须克服传统蛋白质工程方法所固有的复杂性和高资源消耗问题。当前许多基于生成式人工智能(GenAI)的计算技术,往往依赖于目标蛋白的三维结构和特定结合位点,诸如 AlphaProteo 和 RFdiffusion 等模型即具有这样的限制。在本研究中,我们探索了蛋白质语言模型(Protein Language Models, pLMs)在高亲和力结合蛋白生成方面的应用。我们提出了一个全新的蛋白质语言模型家族 —— Prot42,它基于海量未标注蛋白质序列进行预训练。Prot42 采用仅解码器(decoder-only)架构,借鉴了自然语言处理中的最新进展,能够深度捕捉蛋白质的进化、结构和功能信息。得益于其先进的自回归建模能力,Prot42 显著拓展了基于语言的计算蛋白设计能力。值得注意的是,我们的模型可以处理最长达 8,192 个氨基酸的序列,远远超越了当前模型对序列长度的限制,使得对大型蛋白质和多结构域序列的精确建模成为可能。在多个实际应用场景中,Prot42 展现出强大的能力,尤其是在生成高亲和力结合蛋白和特异性 DNA 结合蛋白方面表现出色。我们已将这一创新模型全面开源,向科研界提供了一个高效、精确、可快速应用的蛋白质工程计算工具包。