11 天前
OGB-LSC:图上机器学习的大规模挑战
Weihua Hu, Matthias Fey, Hongyu Ren, Maho Nakata, Yuxiao Dong, Jure Leskovec

摘要
在大规模图数据(例如包含数十亿条边的图)上实现高效且有效的机器学习(ML),对工业界和科学界的应用均具有深远影响。然而,当前推动大规模图机器学习发展的努力在很大程度上受限于缺乏合适的公开基准测试平台。为此,我们推出了OGB大规模挑战赛(OGB Large-Scale Challenge,简称OGB-LSC),这是一个包含三个真实世界数据集的集合,旨在推动大规模图机器学习的研究进展。OGB-LSC数据集的规模较现有数据集大几个数量级,覆盖了图学习领域的三大核心任务:链接预测、图回归和节点分类。此外,我们还提供了专门的基线实验,将具有强表达能力的图机器学习模型扩展至这些超大规模数据集上进行测试。实验结果表明,表达能力强的模型显著优于简单但可扩展的基线方法,这揭示了针对大规模图学习开展专项优化的巨大潜力。值得一提的是,OGB-LSC数据集已被部署于ACM KDD Cup 2021竞赛中,全球吸引了超过500支团队报名参与。在竞赛过程中,多种创新技术带来了显著的性能提升。我们对获奖方案中普遍采用的技术进行了系统总结,并提炼出当前大规模图机器学习领域的最佳实践。最后,我们介绍了在KDD Cup结束后对数据集所做的更新,以进一步促进后续研究的发展。OGB-LSC数据集、基线代码以及KDD Cup的全部相关信息,均可在 https://ogb.stanford.edu/docs/lsc/ 免费获取。