11 天前

开放图基准:图机器学习的数据集

Weihua Hu, Matthias Fey, Marinka Zitnik, Yuxiao Dong, Hongyu Ren, Bowen Liu, Michele Catasta, Jure Leskovec
开放图基准:图机器学习的数据集
摘要

我们提出开放图基准(Open Graph Benchmark,简称 OGB),这是一个多样、具有挑战性且贴近实际的基准数据集集合,旨在推动可扩展、鲁棒且可复现的图机器学习(Graph ML)研究。OGB 数据集规模庞大,涵盖多种重要的图机器学习任务,并覆盖从社交网络与信息网络到生物网络、分子图、源代码抽象语法树(ASTs)以及知识图谱等广泛领域。针对每个数据集,我们提供统一的评估协议,采用具有实际意义的应用特定数据划分方式和评估指标。除了构建数据集外,我们还对每个数据集开展了广泛的基准实验。实验结果表明,OGB 数据集在大规模图的可扩展性以及在现实数据划分下的分布外泛化能力方面提出了显著挑战,揭示了未来研究中丰富的创新机遇。此外,OGB 提供了一个自动化的端到端图机器学习流程,简化并标准化了图数据加载、实验配置与模型评估的过程。OGB 将持续更新,并欢迎社区成员的反馈与贡献。OGB 数据集、数据加载器、评估脚本、基线代码及排行榜均公开可获取,访问地址为:https://ogb.stanford.edu。