
摘要
蛋白质二级结构预测是生物信息学领域数十年来持续研究的核心课题。尽管如此,即使是最先进的从头预测(ab initio)方法,其三状态预测准确率(理论极限为88–90%)仍未能达到,且仅有少数方法能够预测超过传统的三种类型——α-螺旋、β-折叠和无规卷曲。在本研究中,我们对基于单序列和进化谱系特征输入的不同模型进行了系统测试,并在此基础上开发出新一代的领先预测系统——Porter 5。Porter 5 由级联的双向循环神经网络(Bidirectional Recurrent Neural Networks)与卷积神经网络(Convolutional Neural Networks)的集成架构构成,引入了新型输入编码技术,并在大规模蛋白质结构数据集上进行训练。在独立测试集上,Porter 5 在三类预测任务中达到84%的准确率(SOV为81%),在八类预测任务中达到73%的准确率(SOV为70%)。在我们的测试中,Porter 5 比其前代版本提升了2%的准确率,且在性能上优于或至少持平于所测试的最新二级结构预测工具。此外,当Porter 5在基于SCOPe的训练数据集上重新训练,以消除训练集与测试集之间的同源性干扰时,仍可获得相似的预测表现。目前,Porter 5 已作为网页服务器和独立运行程序公开提供,访问地址为:http://distilldeep.ucd.ie/porter/,并附带所有相关数据集与多序列比对文件,供研究者自由使用与验证。