17日前

GenIE:生成型情報抽出

Martin Josifoski, Nicola De Cao, Maxime Peyrard, Fabio Petroni, Robert West
GenIE:生成型情報抽出
要約

テキストの構造的かつ根拠に基づく表現は、通常、閉形式情報抽出(closed information extraction)として形式化される。これは、事前に定義されたエンティティおよび関係の集合(知識ベーススキーマ)に整合する、すべての(主語、関係、目的語)トリプレットを抽出する問題である。従来の多くは誤差の蓄積を引き起こしやすいパイプライン形式であり、すべてのアプローチは現実的ではないほど小さなエンティティおよび関係数にしか適用できない。本研究では、閉形式情報抽出のための初めてのエンド・ツー・エンド自己回帰的定式化として、GenIE(Generative Information Extraction)を提案する。GenIEは、事前学習済みTransformerからの言語知識を自然に活用し、自己回帰的にテキスト形式で関係およびエンティティを生成する。新たに導入した二段階制約付き生成戦略により、事前に定義された知識ベーススキーマに整合するトリプレットのみが生成される。実験の結果、GenIEは閉形式情報抽出において最先端の性能を達成しており、ベースラインと比較して少ない訓練データポイントからも良好に一般化し、かつこれまで扱えなかった規模のエンティティおよび関係へとスケーラブルであることが示された。本研究により、閉形式情報抽出は現実的なシナリオにおいて実用可能となり、下流タスクにおける新たな可能性を提供する。さらに、本研究は情報抽出の核心タスクを統一的エンド・ツー・エンドアプローチで処理する道を切り開くものである。コード、データ、モデルは https://github.com/epfl-dlab/GenIE で公開されている。

GenIE:生成型情報抽出 | 最新論文 | HyperAI超神経