17日前
DocOIE:OpenIE向けの文書レベルにおける文脈認識型データセット
Kuicai Dong, Yilin Zhao, Aixin Sun, Jung-Jae Kim, Xiaoli Li

要約
オープン情報抽出(Open Information Extraction: OpenIE)は、文から構造化された関係タプル(主語、関係、目的語)を抽出することを目的とし、多くの自然言語処理(NLP)の下流タスクにおいて重要な役割を果たしている。既存の手法は、文単位での抽出にとどまり、追加の文脈情報を参照しない。しかし実際には、文は独立して存在するのではなく、文書の一部として存在する場合が一般的である。したがって、文の正確な解釈を行うには、その周辺の関連する文脈情報を参照する必要がある。現状、文書レベルの文脈を考慮したOpenIE用のデータセットは存在しないため、医療および交通の2つの分野から80編の文書から800文を手動でアノテーションし、評価用のDocOIEデータセットを構築した。さらに、文書レベルの文脈を意識した新たなOpenIEモデルであるDocIEを提案する。DocIEを用いた実験結果から、文書レベルの文脈情報を組み込むことでOpenIEの性能向上が可能であることが示された。本研究で開発したDocOIEデータセットおよびDocIEモデルは、公開されている。