摘要
预测药物-靶标相互作用是药物研发与先导化合物优化中的重大挑战。近年来,研究进展包括利用算法从数据中学习药物-靶标相互作用以及通过分子模拟进行预测。本文中,我们采用进化尺度建模(ESM-2)模型,构建了一种基于Transformer的蛋白质语言模型,用于药物-靶标相互作用的预测。我们提出的架构LEP-AD结合了预训练的ESM-2模型与Transformer-GCN模型,用于预测结合亲和力数值。在多个数据集(包括Davis、KIBA、DTC、Metz、ToxCast和STITCH)上,我们的方法在性能上显著优于多种现有先进方法,如SimBoost、DeepCPI、Attention-DTA、GraphDTA等,取得了当前最佳的基准结果。此外,我们发现,采用蛋白质嵌入表示的预训练模型(即LED-AD)在预测性能上优于使用显式AlphaFold三维结构表示的模型(例如,以AlphaFold结构为监督信号的LEP-AD)。LEP-AD模型在训练数据规模增大时表现出良好的性能提升趋势。代码已开源,可访问:https://github.com/adaga06/LEP-AD