WikiGraphs: Ein Datensatz mit gepaarten Wikipedia-Texten und Wissensgraphen

Wir präsentieren einen neuen Datensatz von Wikipedia-Artikeln, die jeweils einem Wissensgraphen zugeordnet sind, um die Forschung im Bereich der bedingten Textgenerierung, Graphgenerierung und Lernen von Graphrepräsentationen zu fördern. Bestehende Datensätze mit gepaarten Graphen und Texten enthalten in der Regel kleine Graphen und kurze Texte (ein oder wenige Sätze), was die Leistungsfähigkeit der auf diesen Daten gelernten Modelle einschränkt. Unser neuer Datensatz WikiGraphs wurde durch das Zuordnen jedes Wikipedia-Artikels aus dem etablierten WikiText-103-Benchmark (Merity et al., 2016) zu einem Teilgraphen aus dem Freebase-Wissensgraphen (Bollacker et al., 2008) erstellt. Dies ermöglicht es, andere state-of-the-art-Textgenerierungsmodelle, die in der Lage sind, längere kohärente Absätze zu erzeugen, leichter zu bewerten. Sowohl die Graphen als auch die Textdaten sind im Vergleich zu früheren gepaarten Graph-Text-Datensätzen erheblich größer. Wir präsentieren Baseline-Ergebnisse von Graph-Neural-Netzwerken und Transformer-Modellen auf unserem Datensatz für drei Aufgaben: Graph -> Textgenerierung, Graph -> Textrückgewinnung und Text -> Graphrückgewinnung. Wir zeigen, dass eine bessere Bedingung an den Graphen Verbesserungen in der Generierungs- und Rückgewinnungsqualität bringt, aber immer noch viel Raum für Verbesserungen besteht.