イベントナラティブ:大規模なイベント中心のデータセットによる知識グラフからテキストへの生成

私たちは、公開されているオープンワールドの知識グラフから生成された「EventNarrative」という知識グラフからテキストへのデータセットを紹介します。最近のイベント駆動型情報抽出(Information Extraction: IE)の進展に鑑み、これまでのグラフからテキストへの研究がエンティティ駆動型の知識グラフ(Knowledge Graph: KG)にのみ焦点を当てていたことから、本論文ではイベント中心のデータに重点を置きます。ただし、当社のデータ生成システムは他のタイプのKGデータにも適応可能です。既存の大規模なグラフからテキストへのデータセットは非並列であり、つまりKGとテキストとの間に大きな乖離があります。KGとテキストがペアになっているデータセットは小規模で、手動生成または豊富なオントロジーなしで生成されており、対応するグラフが疎になっています。さらに、これらのデータセットにはKGとテキストのペア間で未リンクのエンティティが多く含まれています。EventNarrativeは約23万個のグラフとそれに対応する自然言語テキストから構成され、現在最大の並列データセットよりも6倍大きいです。豊富なオントロジーを使用しており、すべてのKGエンティティがテキストにリンクされています。また、手動での注釈により高いデータ品質が確認されています。私たちの目的は二つあります。一つ目は、データ不足が指摘されているイベント中心の研究分野において新たな道を開くことです。二つ目は、研究者が既存および将来の知識グラフからテキストへのモデルをより正確に評価できるよう、明確かつ大規模なデータセットを提供することです。さらに、EventNarrative上で2種類のベースラインモデルを評価しています。これらはグラフからテキストへの特定モデルと最新言語モデルであり、先行研究ではこれらのモデルが知識グラフからテキストへの領域に適応可能であることが示されています。