17 天前

DistilProtBert:一种用于区分真实蛋白质与其随机打乱序列的蒸馏蛋白质语言模型

{Ron Unger, Yanay Ofran, Yaron Geffen}
摘要

近年来,深度学习模型最初在自然语言处理(NLP)领域取得突破后,已被成功应用于蛋白质序列分析。然而,这类模型的一个主要缺陷在于其参数量庞大,对计算资源的需求极高。近期,基于“学生-教师”网络架构的模型蒸馏(distillation)方法在NLP领域得到广泛应用。本文中,我们首次将该思想引入蛋白质序列分析任务,提出了一种名为DistilProtBert的轻量化模型,作为成功模型ProtBert的蒸馏版本。通过该方法,我们使网络规模和运行时间均减少50%,同时将预训练阶段所需的计算资源降低98%,显著提升了模型的效率。在两个公开发布的任务中,我们验证了DistilProtBert的性能已接近原始完整模型的水平。随后,我们进一步评估了DistilProtBert区分真实蛋白质序列与随机打乱序列的能力。该任务极具挑战性,尤其当序列的单体(singlet)、二聚体(doublet)和三聚体(triplet)氨基酸组成保持不变时,传统机器学习方法往往难以胜任。结果表明,DistilProtBert在人类蛋白质组的单体、二聚体乃至三聚体随机打乱版本上均表现出优异性能,其AUC值分别达到0.92、0.91和0.87。最后,我们提出,通过对DistilProtBert中少数误分类样本(即被错误判定为真实蛋白质的随机序列)进行分析,有望识别出具有天然蛋白质特征的全新潜在蛋白序列——这些序列可通过氨基酸序列的随机重排获得,为从头发现新型功能性蛋白质提供了新思路。

DistilProtBert:一种用于区分真实蛋白质与其随机打乱序列的蒸馏蛋白质语言模型 | 最新论文 | HyperAI超神经