中国科学家开发出高效通用的人工智能蛋白质工程方法AiCE,大幅提升蛋白质功能优化效率
近日,中国科学院遗传与发育生物学研究所高彩霞团队开发了一种基于人工智能的通用蛋白质工程方法——AiCE(AI-informed Constraints for protein Engineering)。这一方法旨在解决现有蛋白质工程策略中存在的实验周期长、成本高和依赖经验等问题,通过整合结构与进化约束的通用逆折叠模型,实现对多种蛋白质的高效进化模拟和功能设计。 蛋白质工程是通过人工手段改变蛋白质的氨基酸序列,从而优化或创新其结构和功能的一种方法。与基因组工程相比,蛋白质工程可以直接对蛋白质分子进行操作,但传统的蛋白质工程方法如理性设计和定向进化,往往需要大量试验和经验积累,限制了其规模化应用。高彩霞团队的新方法AiCE不仅避免了专用模型的复杂训练过程,还能快速、低成本地预测蛋白质的突变类型及其功能变化。 具体而言,AiCE方法由两个模块组成:AiCEsingle和AiCEmulti。AiCEsingle模块通过对给定蛋白质三维结构的学习,预测高频出现的氨基酸类型,并通过结构约束进行过滤,最终确定潜在的单个氨基酸替换。团队使用60个深度突变扫描数据集测试了AiCEsingle的性能,发现其预测准确率达到16%,而无限制方案的性能提升了37%。与现有的其他AI模型相比,AiCEsingle的性能也有显著提高,达到了36%至90%以上。此外,AiCEsingle能够有效地适应复杂的蛋白质和蛋白质-核酸复合物,如CRISPR蛋白和SARS-CoV-2病毒蛋白。 为了克服多个突变组合可能产生的负效应,团队进一步开发了AiCEmulti模块。这一模块通过预测进化耦合性来确定潜在的功能协同突变位置。实验结果显示, AiCEmulti与蛋白质大模型SaProt的预测能力相当,但计算成本仅为后者的极小部分。只需要1.15个CPU小时, AiCE就能完成SpCas9蛋白的单突变和双突变体的识别。 高彩霞团队利用AiCE方法,在实验层面验证了多种蛋白质的优化效果,包括脱氨酶、核定位序列、核酸酶和逆转录酶等八个结构和功能各异的蛋白质。借助这种方法,他们成功开发出了用于精准医疗和分子育种的新型碱基编辑器,其中包括编辑窗口缩小近一半的新型胞嘧啶碱基编辑器enABE8e、保真度提升1.3倍的新型腺嘌呤碱基编辑器enSdd6-CBE,以及活性提升13倍的新型线粒体碱基编辑器enDdd1-DdCBE。这些成果表明,AiCE方法在提高蛋白质功能优化的效率、可扩展性和通用性方面表现优异。 业内人士认为,AiCE方法的推出标志着蛋白质工程领域的一次重大突破,未来有望大幅降低成本并加速新药物和生物技术产品的开发。中国科学院遗传与发育生物学研究所长期致力于植物基因功能研究,此次研发不仅拓展了他们在生物领域的影响力,也为全球科研人员提供了强大的工具。 这项研究发表在7月7日的《细胞》杂志上,得到了农业农村部、国家自然科学基金和国家重点研发计划等项目的大力支持。