9 天前
大规模分子数据上的自监督图Transformer
Yu Rong, Yatao Bian, Tingyang Xu, Weiyang Xie, Ying Wei, Wenbing Huang, Junzhou Huang

摘要
如何获取分子的富有信息的表示,是人工智能驱动药物设计与发现中的关键前提。近年来的研究将分子抽象为图结构,并采用图神经网络(Graph Neural Networks, GNNs)进行分子表示学习。然而,GNN在实际应用中仍面临两大挑战:(1)用于监督训练的标注分子数据不足;(2)对新合成分子的泛化能力较差。为同时解决上述问题,我们提出了一种新型框架——GROVER,全称为基于自监督消息传递的图表示Transformer(Graph Representation frOm self-superVised mEssage passing tRansformer)。GROVER通过在节点、边和图三个层次上精心设计的自监督任务,能够从海量未标注分子数据中学习到丰富的结构与语义信息。为有效编码此类复杂信息,GROVER将消息传递网络(Message Passing Networks)与Transformer架构相结合,构建了一类更具表达能力的分子编码器。该框架具有高度灵活性,可在无需任何标注数据的情况下高效地在大规模分子数据集上进行预训练,从而有效规避上述两个问题。我们在包含1000万条未标注分子的超大规模数据集上,对参数量达1000万的GROVER模型进行了预训练,这在分子表示学习领域中既是迄今为止规模最大的GNN模型,也是训练数据量最大的预训练任务。随后,我们利用预训练的GROVER进行分子性质预测,并结合特定任务的微调策略,在11个具有挑战性的基准测试中,性能相比当前最先进的方法平均提升超过6%。我们得出的重要洞见是:经过精心设计的自监督损失函数,以及具备强大表达能力的预训练模型,在提升模型性能方面具有巨大潜力。