2ヶ月前

大規模言語モデルを用いた本体論フリーの一般ドメイン知識グラフからテキスト生成データセットの合成

Daehee Kim; Deokhyung Kang; Sangwon Ryu; Gary Geunbae Lee

要約

知識グラフからテキストへの変換（Knowledge Graph-to-Text, G2T）は、構造化された知識グラフを自然言語のテキストに変換することを指します。最近の事前学習言語モデル（Pretrained Language Models, PLMs）の進歩により、G2Tの性能が向上していますが、その効果は正確なグラフとテキストの対応関係を持つデータセットに依存しています。しかし、高品質で汎用的なG2T生成データセットの不足が、汎用ドメインにおけるG2T生成研究の進展を制限しています。この問題に対処するため、我々は新しい大規模なG2TデータセットであるWikipedia Ontology-Free Graph-text dataset (WikiOFGraph) を紹介します。このデータセットは、大規模言語モデル（Large Language Model, LLM）とData-QuestEvalを活用した新規手法によって生成され、585万件の汎用ドメインのグラフ-テキストペアを含んでいます。WikiOFGraphは外部オントロジーに依存せずに高いグラフ-テキストの一貫性を提供します。実験結果は、WikiOFGraphで微調整されたPLMが他のデータセットで訓練されたモデルよりも様々な評価指標において優れていることを示しています。我々の手法は、高品質なG2Tデータを生成するためのスケーラブルかつ効果的な解決策であり、G2T生成分野における大きな進歩をもたらしています。