
要約
ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内のエンティティペア間の意味的関係を抽出することを目的としています。従来のDocRE手法は、文書全体を入力として無差別に扱うことが一般的ですが、実際にはエンティティペアの関係を予測する上で、文書内の一部の文(証拠文)だけで十分であることが多くあります。本論文では、効率的に証拠文を抽出し、推論時にその証拠を有効に統合することにより、DocREの性能を向上させる証拠強化フレームワーク「Eider」を提案します。まず、軽量な証拠抽出モデルと関係抽出(RE)モデルを共同で学習させることで、メモリおよび実行時間の両面で効率的な学習を実現します。実証的に、ヒューリスティックルールによって構築された銀標(silver labels)上で証拠モデルを学習するだけでも、REの性能が向上することが示されました。さらに、抽出された証拠文と全文の両方に対してRE予測を行い、ブレンド層を用いて予測結果を統合するシンプルながら有効な推論プロセスを設計しました。これにより、Eiderは重要文に注目しつつも、文書全体の情報を保持したまま推論を行うことが可能になります。広範な実験の結果、Eiderは3つのベンチマークデータセットにおいて最先端の手法を上回ることが確認され、特にDocREDではIgn F1/F1でそれぞれ1.37/1.26の向上を達成しました。