6 个月前

摘要

近年来，图神经网络（Graph Neural Networks, GNNs）已成为分析和学习图结构数据的标准工具集。这一新兴领域涌现出大量具有前景的技术方法，并在计算机科学、数学、生物学、物理学及化学等多个学科中取得了成功应用。然而，任何一项技术领域要真正走向主流并具备可靠性，都必须建立相应的基准测试体系以量化进展。为此，我们在2020年3月发布了首个基准框架，该框架具备以下四个核心特性：（i）包含多样化的数学图与真实世界图数据集；（ii）在统一的参数预算下支持公平的模型比较，有助于识别关键网络架构；（iii）采用开源、易用且可复现的代码基础设施；（iv）具备高度灵活性，便于研究人员探索新的理论构想。截至2022年12月，该框架的GitHub仓库已获得2000颗星标和380次分叉，充分体现了该开源框架在GNN社区中的广泛认可与实用价值。本文呈现了该基准框架的更新版本，系统性地总结了上述核心特性，并新增了一个中等规模的分子数据集AQSOL。该数据集与广为人知的ZINC数据集类似，但其目标化学性质基于真实世界实验测量结果，更具现实意义。我们进一步探讨了如何利用该框架推动新型GNN架构的设计与深入洞察。作为本基准框架价值的实证，本文以图的位置编码（Positional Encoding, PE）为例进行研究——该概念正是伴随本基准框架首次提出，此后引发了学术界对更强大位置编码机制的广泛关注，尤其在Transformer与GNN中探索更具鲁棒性的实验设置方面取得了显著进展。

源 PDF