HyperAIHyperAI

Command Palette

Search for a command to run...

KnowCoder: 構造化された知識をLLMにコーディングして普遍的な情報抽出を実現する

Zixuan Li∗†, Yutao Zeng∗, Yuxin Zuo∗, Weicheng Ren∗, Wenxuan Liu, Miao Su, Yucan Guo, Yantao Liu, Xiang Li, Zhilei Hu, Long Bai, Wei Li, Yidan Liu, Pan Yang, Xiaolong Jin†, Jiafeng Guo†, Xueqi Cheng

概要

本稿では、コード生成を用いて普遍的情報抽出(Universal Information Extraction: UIE)を行う大規模言語モデル(Large Language Model: LLM)であるKnowCoderを提案します。KnowCoderは、LLMが容易に理解できる統一スキーマ表現の開発と、スキーマに従って構造化された知識を正確に抽出する効果的な学習フレームワークの構築を目指しています。これらの目標を達成するために、KnowCoderは異なるスキーマをPythonクラスに一貫して変換するコードスタイルのスキーマ表現方法を導入します。これにより、UIEにおけるタスク間の制約などの複雑なスキーマ情報を、LLMにとって親しみやすい形で捉えることが可能になります。さらに、我々は30,000種類以上の知識をカバーするコードスタイルのスキーマライブラリを構築しました。これは、知る限りUIE向け最大のライブラリです。LLMの学習プロセスを容易にするため、KnowCoderにはコード事前学習と指示微調整による2段階学習フレームワークが含まれています。約15億個の自動生成データでのコード事前学習後、KnowCoderは顕著な汎化能力を持ち、少ショット設定においてLLaMA2と比較してF1値で相対的に49.8%の向上を達成しています。指示微調整後、KnowCoderは未見のスキーマでも強力な汎化能力を示し、ゼロショット設定では最良基準(state-of-the-art baselines)と比較して最大12.5%、低リソース設定では最大21.9%の向上を達成しています。また、我々が提案する統一スキーマ表現に基づき、様々な人間アノテーション済みデータセットが同時に利用されてKnowCoderが洗練されることが可能であり、監督設定下で最大7.5%という有意な改善が得られています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています