17 天前

PS4:用于蛋白质单序列二级结构预测的下一代数据集

{Omar Peracha}
摘要

蛋白质二级结构预测是蛋白质折叠问题的一个子问题。因此,若能开发出一种轻量级算法,仅基于蛋白质残基序列即可准确预测二级结构,将为三级结构预测提供有价值的输入信息,从而减少当前高性能模型普遍依赖多序列比对(MSA)的状况。这将进一步推动针对孤儿蛋白(orphan proteins)具有更优性能的蛋白质折叠算法的发展,并由于显著降低运行所需的计算资源,使相关技术在科研与工业界的应用更加便捷和普及。然而,现有的二级结构预测数据集规模较小,已成为自动二级结构预测研究进展的瓶颈。此外,这些数据集中蛋白质链通常缺乏明确标识,限制了研究人员在开发新算法时利用外部领域知识的能力。为此,我们提出了PS4数据集,包含18,731条非冗余蛋白质链及其对应的Q8二级结构标签。每条链均通过其PDB编号进行唯一标识,且该数据集在与其他文献中常见的二级结构数据集进行比对时也保持非冗余性。我们在PS4训练集上对二级结构预测算法进行消融实验,结果表明,在无需任何微调(zero-shot)的情况下,模型在CB513测试集上达到了当前最优的Q8与Q3准确率。此外,我们还为社区提供了一套软件工具包,支持运行评估算法、从零开始训练模型,以及向数据集添加新样本。所有用于复现本研究结果及进行新推理所需的代码与数据,均已公开发布于:https://github.com/omarperacha/ps4-dataset