GenWiki: Ein Datensatz mit 1,3 Millionen Inhaltsteilungstexten und -graphen für die überwachungsfreie Graph-to-Text-Generierung

Die Datensammlung für die Generierung von Text aus Wissensgraphen ist kostenaufwendig. Infolgedessen ist in letzter Zeit ein aktiver Forschungsbereich im Bereich unsupervisierter Modelle entstanden. Die meisten dieser unsupervisierten Modelle müssen jedoch nicht-parallele Versionen bestehender kleiner supervisierter Datensätze verwenden, was ihre Potenziale erheblich einschränkt. In diesem Paper stellen wir einen großskaligen, allgemein-domänenübergreifenden Datensatz namens GenWiki vor. Unser unsupervisierter Datensatz umfasst jeweils 1,3 Millionen Text- und Graph-Beispiele. Mit einer menschlich annotierten Testmenge bieten wir diese neue Benchmark-Datensammlung für zukünftige Forschungsarbeiten zur unsupervisierten Textgenerierung aus Wissensgraphen an.