EventNarrative: Ein umfangreiches ereigniszentriertes Datensatz für die Generierung von Text aus Wissensgraphen

Wir stellen EventNarrative vor, ein Wissensgraph-zu-Text-Datensatz aus öffentlich zugänglichen offenen Wissensgraphen. Angesichts der jüngsten Fortschritte im ereignisgetriebenen Informationsextraktionsverfahren (IE) und der Tatsache, dass frühere Forschungen zur Graph-zu-Text-Generierung sich ausschließlich auf entitätsgetriebene Wissensgraphen konzentrierten, fokussiert sich dieser Beitrag auf ereigniszentrierte Daten. Dennoch kann unser Datengenerierungssystem angepasst werden, um andere Arten von Wissensgraphendaten zu verarbeiten. Bestehende groß angelegte Datensätze im Bereich Graph-zu-Text sind nicht parallel, was bedeutet, dass es einen großen Diskrepanz zwischen den Wissensgraphen und dem Text gibt. Diejenigen Datensätze, die gepaarte Wissensgraphen und Text enthalten, sind klein skaliert und manuell generiert oder ohne eine reichhaltige Ontologie erzeugt worden, wodurch die entsprechenden Graphen dünn besetzt sind. Darüber hinaus enthalten diese Datensätze viele nicht verknüpfte Entitäten zwischen ihren gepaarten Wissensgraphen und Texten. EventNarrative besteht aus etwa 230.000 Graphen und deren entsprechenden natürlichsprachlichen Texten, wobei es sechs Mal größer ist als der aktuell größte parallele Datensatz. Es nutzt eine reichhaltige Ontologie, alle Entitäten der Wissensgraphen sind mit dem Text verknüpft, und unsere manuellen Annotationen bestätigen eine hohe Datenqualität. Unser Ziel ist zweifach: Einerseits sollen neue Wege in der ereigniszentrierten Forschung gebahnt werden, wo Daten fehlen; andererseits soll den Forschern ein gut definiertes, groß angelegtes Datensatz zur Verfügung gestellt werden, um existierende und zukünftige Modelle für die Generierung von Text aus Wissensgraphen besser zu evaluieren. Wir bewerten außerdem zwei Arten von Baselines auf EventNarrative: ein spezifisches Modell für die Generierung von Text aus Wissensgraphen sowie zwei state-of-the-art-Sprachmodelle, die nachgewiesen haben, dass sie anpassbar sind für den Bereich der Generierung von Text aus Wissensgraphen.请注意,这里“state-of-the-art”是一个常用的英文术语,在德语中通常保留原样,表示“最先进的”。