9 天前

通过使用子图条件化的图信息瓶颈对分子进行预训练图神经网络

{Van Thuy Hoang; O-Joun Lee}
通过使用子图条件化的图信息瓶颈对分子进行预训练图神经网络
摘要

本研究旨在构建一个无需人工标注或先验知识的分子图神经网络(Graph Neural Network, GNN)预训练模型。尽管已有多种方法尝试克服获取标注分子数据的局限性,但现有预训练方法仍依赖于语义子图(即功能基团)作为先验信息。然而,仅关注功能基团可能忽略分子图层面的差异性。构建分子领域预训练GNN的核心挑战在于:(1)如何生成具有显著区分性的图级表征;(2)如何在无先验知识的前提下自动发现功能基团。为解决这一问题,我们提出一种新型的子图条件化图信息瓶颈模型——S-CGIB(Subgraph-conditioned Graph Information Bottleneck),用于GNN的预训练,以识别分子中的核心子图(图核心)与关键子图。其核心思想是:图核心包含压缩且充分的信息,能够在S-CGIB原则下,基于跨分子的关键子图条件,生成具有显著区分性的图级表征,并实现对输入图的重建。为在无功能基团先验知识的情况下发现关键子图,我们提出生成一组功能基团候选结构(即自中心网络,ego networks),并通过图核心与候选子图之间的基于注意力机制的交互来实现识别。尽管这些子图是通过自监督学习获得,但其识别结果与真实世界中的功能基团高度吻合。在多个领域分子数据集上的大量实验表明,S-CGIB模型展现出显著优越性。