IPC : Un Jeu de Données de Référence pour l'Apprentissage avec des Données Structurées en Graphe

Les ensembles de données de référence sont un ingrédient indispensable pour l'évaluation des méthodes d'apprentissage automatique basées sur les graphes. Nous mettons à disposition un nouvel ensemble de données, compilé à partir des Compétitions Internationales de Planification (IPC), destiné à la validation des tâches de classification et de régression de graphes, ainsi que des tâches connexes. Outre la construction des graphes (basée sur des problèmes de planification en IA) qui est intéressante en soi, cet ensemble de données présente des caractéristiques distinctement différentes par rapport aux benchmarks couramment utilisés. L'ensemble de données, nommé IPC, comprend deux versions autonomes, grounded et lifted, chacune contenant des graphes de grandes tailles et dont la distribution est biaisée, ce qui pose des défis considérables pour le calcul de modèles de graphes tels que les noyaux de graphes et les réseaux neuronaux de graphes. Les graphes dans cet ensemble sont dirigés, et la version lifted est acyclique, offrant ainsi l'opportunité de valider des modèles spécialisés pour les structures dirigées (acycliques). De plus, le générateur de graphes et l'étiquetage sont programmés informatiquement ; par conséquent, l'ensemble de données peut être facilement étendu si une échelle plus grande est souhaitée. L'ensemble de données est accessible via le lien suivant : \url{https://github.com/IBM/IPC-graph-data}.