摘要
小分子药物性质的准确预测在药物发现中正变得日益重要。传统的基于特征工程的方法严重依赖于人工设计的分子描述符和/或指纹,这些方法需要大量专家知识。随着人工智能技术的快速发展,数据驱动的深度学习方法在性能上已显著优于传统特征工程方法。然而,现有深度学习方法在应用于分子性质预测时,通常面临标注数据稀缺以及不同任务间难以共享信息的问题,导致模型泛化能力较差。为此,我们提出了一种新型的多任务学习BERT框架——MTL-BERT(Multitask Learning BERT),该框架结合大规模预训练、多任务学习以及SMILES(简化分子线性输入规范)枚举策略,有效缓解了数据稀缺问题。MTL-BERT首先通过自监督预训练,利用大量未标注数据挖掘SMILES字符串中的丰富上下文信息;随后,在微调阶段,通过共享不同下游任务之间的信息,同时优化多个目标任务。与此同时,SMILES枚举被用作一种数据增强策略,贯穿于预训练、微调及测试全过程,显著提升了数据多样性,有助于模型从复杂的SMILES字符串中学习关键相关模式。实验结果表明,经过少量微调的预训练MTL-BERT模型在60个实际分子数据集中的绝大多数上,性能显著优于当前最先进的方法。此外,MTL-BERT模型利用注意力机制,能够聚焦于对目标性质至关重要的SMILES字符特征,从而增强了模型的可解释性。