2ヶ月前
REXEL: 文書レベルの関係抽出およびエンティティリンクのためのエンドツーエンドモデル
Nacime Bouziani; Shubhi Tyagi; Joseph Fisher; Jens Lehmann; Andrea Pierleoni

要約
非構造化テキストから構造化情報を抽出することは、多くの下流の自然言語処理(NLP)アプリケーションにとって重要であり、従来は閉じた情報抽出(cIE)によって達成されてきました。しかし、既存のcIE手法には2つの制限があります:(i) よくパイプライン形式で行われるため、エラー伝播に脆弱である、および/または (ii) 文レベルに限定されているため、長距離依存関係を捉えることができず、推論時間が高価になるというものです。これらの制限に対処するために、我々はドキュメントレベルのcIE(DocIE)の統合タスクを効率的かつ正確に行うモデルREXELを提案します。REXELは単一の順方向パスでメンション検出、エンティティタイプ付け、エンティティ曖昧性解消、共参照解決、ドキュメントレベルでの関係分類を行い、事実を参照知識グラフに完全にリンクさせます。同様の設定において競合する既存手法と比較して平均11倍速く、個々のサブタスクや異なる統合タスクの組み合わせに対して最適化された場合でも競争力のある性能を示し、ベースラインを超える平均6 F1ポイント以上の改善を達成しています。速度と精度の両方を持つREXELはウェブスケールでの構造化情報抽出に適した正確でコスト効率の良いシステムです。また、将来のDocIEに関する研究におけるベンチマークテストを可能にするためにDocREDデータセットの拡張版も公開しており、これはhttps://github.com/amazon-science/e2e-docie で利用可能です。