9 天前

ChemRL-GEM:面向性质预测的几何增强分子表示学习

Xiaomin Fang, Lihang Liu, Jieqiong Lei, Donglong He, Shanzhuo Zhang, Jingbo Zhou, Fan Wang, Hua Wu, Haifeng Wang
ChemRL-GEM:面向性质预测的几何增强分子表示学习
摘要

有效的分子表示学习对于促进分子性质预测具有重要意义,而分子性质预测是制药与材料工业中的基础性任务。近年来,图神经网络(Graph Neural Networks, GNNs)在分子表示学习领域的应用展现出巨大潜力。此外,一些最新研究也成功将自监督学习方法应用于GNN的预训练,以缓解标注分子数据不足的问题。然而,现有GNN模型及其预训练策略通常将分子视为拓扑图结构数据,未能充分挖掘分子的几何信息。事实上,分子的三维(3D)空间结构,即分子几何构型,是决定其物理、化学及生物性质的最关键因素之一。为此,我们提出了一种新型的几何增强型分子表示学习方法——化学表示学习(Chemical Representation Learning, ChemRL)框架下的GEM(Geometry Enhanced Molecular representation learning)。首先,我们设计了一种基于几何信息的GNN架构,能够同时建模分子中的原子、化学键以及键角关系。具体而言,我们为每个分子构建了双图结构:第一个图用于编码原子-键之间的关系;第二个图则用于编码键角之间的关系。在此基础上,我们进一步提出了若干新颖的几何层级自监督学习策略,通过利用分子局部与全局的3D结构信息,有效学习其空间特征。我们在多个分子基准数据集上将ChemRL-GEM与多种当前最先进的(State-of-the-Art, SOTA)方法进行了对比,实验结果表明,ChemRL-GEM在回归与分类任务中均显著优于所有基线方法。例如,在回归任务中,相较于现有SOTA方法,ChemRL-GEM平均性能提升达8.8%,充分验证了所提方法的优越性。