3 days ago
PLAME:利用预训练语言模型生成增强的蛋白质多序列比对
Hanqun Cao, Xinyi Zhou, Zijun Gao, Chenyu Wang, Xin Gao, Zhi Zhang, et al

摘要
蛋白质结构预测对于药物发现和理解生物功能至关重要。尽管像AlphaFold这样的最新进展已经实现了显著的准确性,但大多数折叠模型仍然严重依赖多重序列比对(MSAs)来提高预测性能。这种依赖性限制了它们在低同源性和孤儿蛋白上的有效性,因为这些蛋白质的MSA信息稀少或不可用。为了解决这一局限,我们提出了一种新的MSA设计模型——PLAME,该模型利用预训练蛋白质语言模型中的进化嵌入来增强预测性能。与现有方法不同,PLAME引入了预训练表示以增强进化信息,并采用了保守-多样性损失函数来提升生成质量。此外,我们还提出了一种新的MSA选择方法,能够有效筛选高质量的MSA并进一步提高折叠性能。我们还提出了一种序列质量评估指标,从一个正交的角度来评价MSA的质量。在AlphaFold2低同源性和孤儿蛋白基准测试中,PLAME在折叠增强和序列质量评估方面达到了最先进的性能,并且在AlphaFold3上也表现出一致的改进。消融研究验证了MSA选择方法的有效性,而广泛的案例研究则提供了关于AlphaFold预测质量和MSA特征之间关系的见解。此外,我们证明了PLAME可以作为一个适配器,在保持ESMFold推理速度的同时达到AlphaFold2级别的准确性。