11 天前
SSM-DTA:突破药物-靶标亲和力预测中的数据稀缺性瓶颈
Qizhi Pei, Lijun Wu, Jinhua Zhu, Yingce Xia, Shufang Xie, Tao Qin, Haiguang Liu, Tie-Yan Liu, Rui Yan

摘要
准确预测药物-靶标亲和力(Drug-Target Affinity, DTA)在新药研发的早期阶段具有至关重要的意义,有助于识别能够有效作用于特定靶标并调控其活性的候选药物。尽管湿实验仍是目前最可靠的验证方法,但其耗时长、成本高,导致可用数据量有限,给深度学习方法的应用带来了挑战。现有方法主要聚焦于基于已有DTA数据的建模技术,却未能充分解决数据稀缺这一核心问题。为应对这一挑战,本文提出SSM-DTA框架,融合三种简单但高效的方法策略:(1)采用多任务学习范式,将DTA预测与掩码语言建模(Masked Language Modeling, MLM)相结合,利用配对的药物-靶标数据进行联合训练;(2)引入半监督训练机制,利用大规模未配对的分子和蛋白质数据增强药物与靶标的表征能力,该方法区别于以往仅依赖分子或蛋白质进行预训练的策略;(3)集成轻量级交叉注意力模块,强化药物与靶标之间的交互建模,进一步提升预测精度。在BindingDB、DAVIS和KIBA等基准数据集上开展的大量实验表明,本框架展现出显著优于现有方法的性能。此外,我们通过具体药物-靶标结合活性的案例研究、虚拟筛选实验、药物特征可视化以及实际应用场景分析,充分验证了该方法在真实世界中的巨大潜力。综上所述,SSM-DTA框架有效缓解了DTA预测中的数据受限问题,取得了令人瞩目的成果,为实现更高效、更精准的药物发现提供了有力支持。相关代码已开源,访问地址为:$\href{https://github.com/QizhiPei/SSM-DTA}{GitHub}$。