16 天前

知识精炼驱动的蛋白质设计:突破蛋白质设计的极限

Zhangyang Gao, Cheng Tan, Stan Z. Li
知识精炼驱动的蛋白质设计:突破蛋白质设计的极限
摘要

近期研究在蛋白质设计领域取得了具有竞争力的成果,旨在寻找能够折叠成目标结构的氨基酸序列。然而,大多数现有方法忽视了预测置信度的重要性,未能覆盖广阔的蛋白质序列空间,且未充分融入常见的蛋白质先验知识。鉴于预训练模型在多种蛋白质相关任务中取得的显著成功,以及恢复率与预测置信度之间高度相关这一事实,我们提出疑问:是否可以通过引入此类知识进一步突破蛋白质设计的性能极限?为此,我们提出一种知识感知模块,用于优化低质量残基的预测结果。同时,我们设计了一种记忆检索机制,可节省超过50%的训练时间。我们在CATH、TS50和TS500三个基准数据集上对所提方法进行了广泛评估,结果表明,我们的Knowledge-Design方法在CATH数据集上的性能相较先前的PiFold方法提升了约9%。特别地,Knowledge-Design是首个在CATH、TS50和TS500三个基准上均实现超过60%恢复率的方法。此外,我们还提供了详尽的分析以验证所提方法的有效性。相关代码将公开发布。