11日前

OGB-LSC:グラフ上の機械学習における大規模チャレンジ

Weihua Hu, Matthias Fey, Hongyu Ren, Maho Nakata, Yuxiao Dong, Jure Leskovec
OGB-LSC:グラフ上の機械学習における大規模チャレンジ
要約

大規模なグラフデータ(例:数十億の辺を有するグラフ)上で効果的かつ効率的な機械学習(ML)を実現することは、産業的・科学的応用に大きな影響を与える可能性を秘めている。しかし、これまでの大規模グラフMLの進展は、適切な公開ベンチマークの不足によって大きく制限されてきた。本研究では、大規模グラフMLの進展を促進するための3つの実世界データセットを収集した「OGB Large-Scale Challenge(OGB-LSC)」を紹介する。OGB-LSCのデータセットは、従来のものと比べて桁違いに規模が大きく、リンク予測、グラフ回帰、ノード分類の3つの核心的なグラフ学習タスクをカバーしている。さらに、これらのマススケールデータセットに適合する表現力の高いグラフMLモデルをスケーリングした専用のベースライン実験を提供している。実験の結果、表現力の高いモデルが単純なスケーラブルなベースラインを顕著に上回ることを示しており、大規模なグラフMLのさらなる向上に向けた専門的な取り組みの余地があることが示された。また、OGB-LSCデータセットはACM KDD Cup 2021に採用され、世界中から500チーム以上の参加登録が集まり、多様な革新的な技術によって顕著な性能向上が達成された。本研究では、優勝チームが用いた共通の技術を要約し、大規模グラフMLにおける現在の最良実践(best practices)を明らかにした。最後に、KDD Cup終了後におけるデータセットの更新内容についても述べ、今後の研究進展をさらに促進する仕組みを紹介する。OGB-LSCのデータセット、ベースラインコード、およびKDD Cupに関するすべての情報は、https://ogb.stanford.edu/docs/lsc/ で公開されている。

OGB-LSC:グラフ上の機械学習における大規模チャレンジ | 最新論文 | HyperAI超神経