IPC: Ein Referenzdatensatz für das Lernen mit graphstrukturierten Daten

Benchmark-Datensätze sind ein unverzichtbares Element bei der Bewertung von graphbasierten maschinellen Lernmethoden. Wir veröffentlichen einen neuen Datensatz, der aus den International Planning Competitions (IPC) zusammengestellt wurde, um die Klassifikation, Regression und verwandte Aufgaben von Graphen zu evaluieren. Neben der interessanten Graphkonstruktion (basierend auf AI-Planungsproblemen) weist dieser Datensatz deutlich unterschiedliche Merkmale auf im Vergleich zu gängigen Benchmarks. Der Datensatz, der IPC genannt wird, besteht aus zwei eigenständigen Versionen: grounded und lifted. Beide Versionen enthalten Graphen mit großen und stark schief verteilten Größen, was erhebliche Herausforderungen für die Berechnung von Graphmodellen wie Graphkernen und Graphneuralnetzen darstellt. Die Graphen in diesem Datensatz sind gerichtet, und die lifted-Version ist zyklusfrei, was die Möglichkeit bietet, spezialisierte Modelle für gerichtete (zyklusfreie) Strukturen zu evaluieren. Darüber hinaus werden der Graphgenerator und das Labeling durch Computerprogramme durchgeführt; somit kann der Datensatz leicht erweitert werden, falls eine größere Skala gewünscht wird. Der Datensatz ist unter \url{https://github.com/IBM/IPC-graph-data} verfügbar.