
摘要
高斯过程(Gaussian Process, GP)是一种贝叶斯模型,在机器学习的回归任务中具有诸多优势,例如能够可靠地量化不确定性,并提升模型的可解释性。然而,其广泛应用受到两个主要因素的限制:计算成本过高,以及难以适应序列数据(如氨基酸序列和核苷酸序列)和图结构数据(如表示小分子的图)的分析。在本研究中,我们提出了一种高效且可扩展的高斯过程建模方法,并开发了计算复杂度与图或序列规模呈线性关系的快速卷积核。我们通过构建一个名为xGPR的开源Python库实现了上述改进。我们在20个基准任务上将xGPR的性能与多种深度学习模型的报告结果进行了对比,涵盖小分子、蛋白质序列及表格数据等多种类型。结果表明,xGPR在保持高度竞争力的同时,训练时间显著缩短。此外,我们还为序列和图数据设计了新型核函数,并验证了在预测蛋白质和小分子关键性质方面,xGPR通常优于卷积神经网络(CNN)等典型深度学习模型。尤为重要的是,xGPR能够提供传统深度学习模型无法获得的不确定性估计信息。同时,xGPR还生成输入数据的低维表示,可用于聚类分析和数据可视化。这些结果表明,xGPR是一种强大且通用的工具,在蛋白质工程和药物发现等领域具有广泛的应用潜力。