HyperAIHyperAI

Command Palette

Search for a command to run...

大規模言語モデルを用いた本体論フリーの一般ドメイン知識グラフからテキスト生成データセットの合成

Daehee Kim; Deokhyung Kang; Sangwon Ryu; Gary Geunbae Lee

概要

知識グラフからテキストへの変換(Knowledge Graph-to-Text, G2T)は、構造化された知識グラフを自然言語のテキストに変換することを指します。最近の事前学習言語モデル(Pretrained Language Models, PLMs)の進歩により、G2Tの性能が向上していますが、その効果は正確なグラフとテキストの対応関係を持つデータセットに依存しています。しかし、高品質で汎用的なG2T生成データセットの不足が、汎用ドメインにおけるG2T生成研究の進展を制限しています。この問題に対処するため、我々は新しい大規模なG2TデータセットであるWikipedia Ontology-Free Graph-text dataset (WikiOFGraph) を紹介します。このデータセットは、大規模言語モデル(Large Language Model, LLM)とData-QuestEvalを活用した新規手法によって生成され、585万件の汎用ドメインのグラフ-テキストペアを含んでいます。WikiOFGraphは外部オントロジーに依存せずに高いグラフ-テキストの一貫性を提供します。実験結果は、WikiOFGraphで微調整されたPLMが他のデータセットで訓練されたモデルよりも様々な評価指標において優れていることを示しています。我々の手法は、高品質なG2Tデータを生成するためのスケーラブルかつ効果的な解決策であり、G2T生成分野における大きな進歩をもたらしています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています