
要約
知識グラフからテキストを生成するためのデータ収集は費用が高いため、近年、教師なしモデルに関する研究が活発化している。しかし、大多数の教師なしモデルは、既存の小規模な教師付きデータセットの平行していないバージョンを用いる必要があり、その可能性を大きく制限している。本論文では、大規模かつ汎用的なドメインを対象としたデータセット「GenWiki」を提案する。本研究で用いる教師なしデータセットは、それぞれ130万件のテキスト例とグラフ例を含む。また、人間によるアノテーションが施されたテストセットを併せて提供することで、今後の知識グラフからの教師なしテキスト生成に関する研究のための新たなベンチマークデータセットを提供する。