11 天前

DLPAlign:一种基于深度学习的多蛋白序列渐进式对齐方法

{Lufei Gao, Yong liu, Mengmeng Kuang}
摘要

本文提出了一种新颖且简便的方法,用于提升渐进式多蛋白序列比对方法的准确性。我们基于卷积神经网络(Convolutional Neural Networks, CNN)与双向长短期记忆网络(Bidirectional Long Short-Term Memory, Bi-LSTM)构建了一个决策模型,并通过计算不同的后验概率矩阵,实现对输入蛋白序列的逐步比对。为评估该方法的性能,我们开发了一款多序列比对工具DLPAlign,并将其在三个经典的比对基准数据集(BAliBASE、OXBench 和 SABMark)上与十一种主流比对方法进行了对比。结果表明,DLPAlign在三个基准数据集上均取得了最优的总列得分(total-column scores)。在针对711个低相似性蛋白家族(平均序列同一性PID ≤ 30%)的测试中,DLPAlign相较于表现第二好的多序列比对软件,准确率提升了约2.8%。此外,我们在一项实际应用场景——即与SARS-CoV-2相关的四个蛋白序列的二级结构预测任务中,对DLPAlign及其他比对工具进行了比较,结果表明DLPAlign在所有情况下均取得了最佳表现。

DLPAlign:一种基于深度学习的多蛋白序列渐进式对齐方法 | 最新论文 | HyperAI超神经