
摘要
近年来,机器学习技术已被广泛应用于医学、生物学、化学和材料工程等领域。一个重要的任务是预测分子的性质,这在许多下游应用(如虚拟筛选和药物设计)中起着核心子程序的作用。尽管这一领域的兴趣日益浓厚,但关键挑战在于为学习算法构建适当的分子表示方法。本文介绍了一种简单的无监督分子表示方法——N-gram图。该方法首先对分子图中的顶点进行嵌入,然后通过在图中短路径上组装这些顶点嵌入来构建紧凑的图表示。我们证明了这种方法等同于一种简单的无需训练的图神经网络。因此,可以高效地计算出这些表示,并将其与有监督学习方法结合用于预测。在来自10个基准数据集的60项任务上的实验表明,该方法优于流行的图神经网络和传统的表示方法。此外,理论分析也证明了其强大的表示能力和预测能力。