
要約
文書レベルの関係抽出(Document-level Relation Extraction, RE)は、文レベルの対応手法と比較して新たな課題を提示する。一般的に、一つの文書には複数のエンティティペアが含まれており、また一つのエンティティペアは文書内で複数回出現し、それぞれ異なる関係に属する可能性がある。本論文では、多ラベルおよび多エンティティ問題に対処するため、2つの新しい手法、適応的閾値化(adaptive thresholding)と局所的コンテキストプーリング(localized context pooling)を提案する。適応的閾値化は、従来の手法で用いられるグローバルな閾値を、エンティティに依存する学習可能な閾値に置き換えるものである。一方、局所的コンテキストプーリングは、事前学習された言語モデルからの注目度(attention)を直接利用し、関係の判別に有用な関連コンテキストを明確に特定する。本研究では、DocRED、近年公開された大規模REデータセット、および生物医療分野におけるCDRおよびGDAの3つのベンチマークデータセットを用いた実験を行った。提案モデルATLOP(Adaptive Thresholding and Localized cOntext Pooling)は、F1スコア63.4を達成し、CDRおよびGDAの両方において、既存のモデルを著しく上回る性能を示した。