2ヶ月前

KnowCoder: 構造化された知識をLLMにコーディングして普遍的な情報抽出を実現する

Zixuan Li; Yutao Zeng; Yuxin Zuo; Weicheng Ren; Wenxuan Liu; Miao Su; Yucan Guo; Yantao Liu; Xiang Li; Zhilei Hu; Long Bai; Wei Li; Yidan Liu; Pan Yang; Xiaolong Jin; Jiafeng Guo; Xueqi Cheng

論文の詳細を見る

KnowCoder: 構造化された知識をLLMにコーディングして普遍的な情報抽出を実現する

要約

本稿では、コード生成を用いて普遍的情報抽出（Universal Information Extraction: UIE）を行う大規模言語モデル（Large Language Model: LLM）であるKnowCoderを提案します。KnowCoderは、LLMが容易に理解できる統一スキーマ表現の開発と、スキーマに従って構造化された知識を正確に抽出する効果的な学習フレームワークの構築を目指しています。これらの目標を達成するために、KnowCoderは異なるスキーマをPythonクラスに一貫して変換するコードスタイルのスキーマ表現方法を導入します。これにより、UIEにおけるタスク間の制約などの複雑なスキーマ情報を、LLMにとって親しみやすい形で捉えることが可能になります。さらに、我々は30,000種類以上の知識をカバーするコードスタイルのスキーマライブラリを構築しました。これは、知る限りUIE向け最大のライブラリです。LLMの学習プロセスを容易にするため、KnowCoderにはコード事前学習と指示微調整による2段階学習フレームワークが含まれています。約15億個の自動生成データでのコード事前学習後、KnowCoderは顕著な汎化能力を持ち、少ショット設定においてLLaMA2と比較してF1値で相対的に49.8%の向上を達成しています。指示微調整後、KnowCoderは未見のスキーマでも強力な汎化能力を示し、ゼロショット設定では最良基準（state-of-the-art baselines）と比較して最大12.5%、低リソース設定では最大21.9%の向上を達成しています。また、我々が提案する統一スキーマ表現に基づき、様々な人間アノテーション済みデータセットが同時に利用されてKnowCoderが洗練されることが可能であり、監督設定下で最大7.5%という有意な改善が得られています。