Open Graph Benchmark : Jeux de données pour l'apprentissage automatique sur les graphes

Nous présentons le Open Graph Benchmark (OGB), un ensemble diversifié de jeux de données de référence exigeants et réalistes, conçu pour favoriser la recherche en apprentissage automatique sur les graphes (ML) à grande échelle, robuste et reproductible. Les jeux de données OGB sont de grande taille, couvrent plusieurs tâches importantes de l’apprentissage automatique sur les graphes, et s’étendent à une diversité de domaines, allant des réseaux sociaux et informatiques aux réseaux biologiques, graphes moléculaires, arbres d’abstraction syntaxique (AST) du code source et graphes de connaissances. Pour chaque jeu de données, nous proposons un protocole d’évaluation unifié, basé sur des partitions de données spécifiques aux applications et des métriques d’évaluation pertinentes. En plus de la construction des jeux de données, nous menons également des expériences de benchmark approfondies pour chacun d’eux. Nos expérimentations indiquent que les jeux de données OGB posent des défis significatifs en matière de scalabilité sur des graphes de grande taille et de généralisation hors distribution sous des partitions de données réalistes, ouvrant ainsi de nombreuses perspectives prometteuses pour des recherches futures. Enfin, OGB met à disposition une pipeline automatisée et end-to-end pour l’apprentissage automatique sur les graphes, qui simplifie et standardise les étapes de chargement des données, de configuration des expériences et d’évaluation des modèles. OGB sera régulièrement mis à jour et accueillera les contributions de la communauté. Les jeux de données OGB, ainsi que les chargeurs de données, scripts d’évaluation, codes de référence et classements sont accessibles publiquement à l’adresse suivante : https://ogb.stanford.edu.