11日前
オープングラフベンチマーク:グラフ上の機械学習のためのデータセット
Weihua Hu, Matthias Fey, Marinka Zitnik, Yuxiao Dong, Hongyu Ren, Bowen Liu, Michele Catasta, Jure Leskovec

要約
本稿では、スケーラブルで、ロバストかつ再現可能なグラフ機械学習(ML)研究を促進するための多様な挑戦的で現実的なベンチマークデータセットとして、Open Graph Benchmark(OGB)を提案する。OGBデータセットは大規模であり、重要な複数のグラフMLタスクをカバーしており、ソーシャルネットワークや情報ネットワークから生物ネットワーク、分子グラフ、ソースコードの抽象構文木(AST)、知識グラフに至るまで、幅広い分野を網羅している。各データセットについて、意味のあるアプリケーション固有のデータ分割と評価指標を用いた統一された評価プロトコルを提供している。データセットの構築に加え、各データセットに対して広範なベンチマーク実験も実施した。実験結果から、OGBデータセットは大規模グラフにおけるスケーラビリティの課題および現実的なデータ分割下における分布外一般化(out-of-distribution generalization)の困難さを示しており、今後の研究において豊かな機会を示唆している。さらに、OGBはグラフデータの読み込み、実験設定、モデル評価のプロセスを簡素化・標準化する自動化されたエンドツーエンドのグラフMLパイプラインを提供している。OGBは継続的に更新され、コミュニティからのフィードバックを歓迎している。OGBデータセット、データローダー、評価スクリプト、ベースラインコード、リーダーボードはすべて、https://ogb.stanford.edu にて公開されている。