
摘要
准确预测突变对蛋白质结合亲和力的影响,对于新型治疗药物的发现与设计,以及辅助突变研究具有重要意义。然而,测定突变引起的结合亲和力变化通常依赖于复杂、昂贵且耗时的湿实验,而计算方法可有效辅助此类研究。目前大多数计算预测方法依赖于蛋白质三维结构,这限制了其在结构未知的蛋白质复合物中的应用。在本研究中,我们探索了基于序列的突变对蛋白质结合亲和力变化的预测方法。我们摒弃了对蛋白质结构的依赖,转而利用蛋白质序列信息,并结合机器学习技术,实现了对突变引起结合亲和力变化的高精度预测。我们提出的新型序列驱动型预测工具PANDA,在相同验证集上优于现有方法,并在外部独立测试数据集上也表现出优异性能。在外部测试数据集上,PANDA达到的最大皮尔逊相关系数为0.52,而当前最先进的基于蛋白质结构的方法MutaBind的最大皮尔逊相关系数为0.59。尽管略低于结构基方法,但PANDA作为基于序列的方法,在预测突变引起的结合亲和力变化方面展现出广泛的适用性与可比的性能。PANDA的云端网页服务器版本及其Python源代码已公开发布,访问地址为:https://sites.google.com/view/wajidarshad/software 和 https://github.com/wajidarshad/panda。