OGB-LSC : Un Défi à Grande Échelle pour l'Apprentissage Automatique sur les Graphes

Permettre l’apprentissage automatique (ML) efficace et performant sur de grandes masses de données graphes (par exemple, des graphes comptant des dizaines de milliards d’arêtes) peut avoir un impact considérable tant sur les applications industrielles que scientifiques. Toutefois, les efforts existants visant à faire progresser le ML à grande échelle sur les graphes sont largement freinés par le manque de benchmarks publics adéquats. Dans cet article, nous présentons le OGB Large-Scale Challenge (OGB-LSC), une collection de trois jeux de données réels destinés à stimuler les avancées dans le domaine du ML à grande échelle sur les graphes. Les jeux de données OGB-LSC sont d’un ordre de grandeur supérieurs à ceux existants, couvrant trois tâches fondamentales du apprentissage sur les graphes : la prédiction de liens, la régression sur graphes et la classification de nœuds. En outre, nous fournissons des expériences baselines dédiées, mettant à l’échelle des modèles expressifs de ML sur les graphes afin de les appliquer à ces jeux de données massifs. Nous montrons que les modèles expressifs surpassent significativement les baselines simples mais évolutives, ce qui révèle une opportunité pour des efforts ciblés visant à améliorer davantage le ML sur les graphes à grande échelle. Par ailleurs, les jeux de données OGB-LSC ont été utilisés lors de l’ACM KDD Cup 2021, attirant plus de 500 équipes inscrites à travers le monde, au cours desquelles des améliorations importantes de performance ont été obtenues grâce à une variété de techniques innovantes. Nous résumons les techniques couramment utilisées par les solutions gagnantes et mettons en évidence les meilleures pratiques actuelles dans le domaine du ML à grande échelle sur les graphes. Enfin, nous décrivons les mises à jour apportées aux jeux de données après le KDD Cup afin de favoriser davantage les progrès de la recherche. Les jeux de données OGB-LSC, le code de référence et toutes les informations relatives au KDD Cup sont disponibles à l’adresse suivante : https://ogb.stanford.edu/docs/lsc/.