Command Palette
Search for a command to run...
分子拓扑特征(MOLTOP)——分子图分类的简单而强大的基线方法
分子拓扑特征(MOLTOP)——分子图分类的简单而强大的基线方法
Wojciech Czech Jakub Adamczyk
摘要
我们重新审视了拓扑描述符在分子图分类任务中的有效性,并设计了一种简单但性能强大的基线方法。研究表明,通过采用边描述符的直方图聚合,结合原子序数和键类型的独热编码(one-hot encoding)进行特征工程,并与随机森林(Random Forest)分类器相结合,即可构建出一个在图神经网络(GNNs)领域具有强大竞争力的基线模型。我们提出的新型算法——分子拓扑特征(Molecular Topological Profile, MOLTOP),融合了边介数中心性(Edge Betweenness Centrality)、调整兰德指数(Adjusted Rand Index)以及SCAN结构相似性得分(SCAN Structural Similarity Score)。该方法在与现代GNN模型对比时表现出显著竞争力,同时具备结构简单、运行快速、方差低以及无需超参数调优等优点。我们在MoleculeNet数据集上,基于Open Graph Benchmark提供的公平评估协议,对所提方法进行了严格测试。此外,我们在长程图基准(Long Range Graph Benchmark)的肽类分类任务中,进一步验证了该方法在跨领域生成任务中的泛化能力。在十一项基准数据集上的综合评估表明,MOLTOP具有强大的图区分能力,其性能甚至超越了1-WL测试(1-Weisfeiler-Lehman test),在部分图类上也优于3-WL测试。我们的结论是:基于描述符的基线方法(如本文所提出的MOLTOP)在准确评估GNN领域进展方面依然至关重要。