2ヶ月前

DocRED: 大規模な文書レベルの関係抽出データセット

Yuan Yao; Deming Ye; Peng Li; Xu Han; Yankai Lin; Zhenghao Liu; Zhiyuan Liu; Lixin Huang; Jie Zhou; Maosong Sun
DocRED: 大規模な文書レベルの関係抽出データセット
要約

文書内に存在する複数のエンティティは一般的に複雑な文間関係を示し、既存の関係抽出(RE)手法では、通常単一のエンティティペアに対する文内関係の抽出に焦点が当てられているため、十分に対処できません。文書レベルのREに関する研究を加速するために、私たちはDocREDという新しいデータセットを紹介します。このデータセットはWikipediaとWikidataから構築され、以下の3つの特徴を持っています:(1) DocREDは名詞エンティティと関係双方を注釈しており、平文テキストからの文書レベルのRE用最大の人手による注釈データセットです;(2) DocREDは、文書内の複数の文章を読み取り、その情報を総合的に利用してエンティティを抽出し、それらの関係を推論することを求めます;(3) 人手による注釈データに加えて、大規模な遠隔監督データも提供しており、これによりDocREDは監督学習と弱い監督学習の両方のシナリオで採用可能となります。文書レベルのREにおける課題を検証するために、私たちは最近の最先端のRE手法を実装し、これらの手法についてDocRED上で詳細な評価を行いました。経験的な結果は、既存のRE手法にとってDocREDが挑戦的であることを示しており、これは文書レベルのREが未解決問題であり、さらなる努力が必要であることを意味しています。実験結果に基づく詳細な分析を通じて、私たちは将来の研究における複数の有望な方向性について議論します。

DocRED: 大規模な文書レベルの関係抽出データセット | 最新論文 | HyperAI超神経