
摘要
蛋白质二级结构(SS)预测对于研究蛋白质的结构和功能至关重要。当仅使用序列(谱型)信息作为输入特征时,目前最好的预测器可以达到约80%的Q3准确率,这一水平在过去十年中并未得到显著提升。本文介绍了一种用于蛋白质二级结构预测的深度学习方法——DeepCNF(深度卷积神经场)。DeepCNF 是条件神经场(CNF)的深度学习扩展,而条件神经场则是条件随机场(CRF)和浅层神经网络的结合体。DeepCNF 不仅可以通过深层层次结构建模复杂的序列-结构关系,还可以捕捉相邻二级结构标签之间的相互依赖性,因此其性能远超传统的 CNF。实验结果表明,DeepCNF 在 CASP 和 CAMEO 测试蛋白上分别达到了约84%的Q3准确率、约85%的SOV得分以及约72%的Q8准确率,大幅优于当前流行的预测器。作为一种通用框架,DeepCNF 还可用于预测其他蛋白质结构属性,如接触数、无序区域和溶剂可及性。