2 个月前

DeepAffinity:通过统一的循环神经网络和卷积神经网络实现化合物-蛋白质亲和力的可解释深度学习

Mostafa Karimi; Di Wu; Zhangyang Wang; Yang Shen
DeepAffinity:通过统一的循环神经网络和卷积神经网络实现化合物-蛋白质亲和力的可解释深度学习
摘要

动机:药物发现需要快速量化化合物-蛋白质相互作用(CPI)。然而,目前缺乏能够在仅基于序列的情况下高适用性、高精度和高可解释性地预测化合物-蛋白质亲和力的方法。结果:我们提出了一种将领域知识与学习方法无缝结合的方案。在新型的结构注释蛋白质序列表示下,提出了一种半监督深度学习模型,该模型统一了递归神经网络(RNN)和卷积神经网络(CNN),以利用未标记数据和已标记数据,共同编码分子表示并预测亲和力。我们的表示方法和模型在测试案例中实现了IC$_{50}$相对误差在5倍以内,在未包含于训练集中的蛋白质类别中实现了20倍以内的相对误差,优于传统方法。通过迁移学习,对于仅有少量已标记数据的新蛋白质类别,性能得到了进一步提升。此外,开发并嵌入了独立和联合注意力机制,以增强模型的可解释性,如在案例研究中用于预测和解释选择性的药物-靶标相互作用所示。最后,还探索了使用蛋白质序列或化合物图谱的替代表示方法以及统一的RNN/GCNN-CNN模型(使用图卷积神经网络[GCNN]),揭示了未来算法面临的挑战。可用性:数据和源代码可在https://github.com/Shen-Lab/DeepAffinity 获取。补充信息:补充数据可在http://shen-lab.github.io/deep-affinity-bioinf18-supp-rev.pdf 获取。