17日前

DWIE:マルチタスク文書レベル情報抽出のためのエンティティ中心型データセット

Klim Zaporojets, Johannes Deleu, Chris Develder, Thomas Demeester
DWIE:マルチタスク文書レベル情報抽出のためのエンティティ中心型データセット
要約

本稿では、情報抽出(Information Extraction, IE)の4つの主要な注釈サブタスク(i)固有表現認識(Named Entity Recognition, NER)、(ii)コアフレンス解決(Coreference Resolution)、(iii)関係抽出(Relation Extraction, RE)、(iv)エンティティリンク(Entity Linking)を統合した、新たに構築されたマルチタスクデータセット「DWIE(Deutsche Welle corpus for Information Extraction)」を提示する。DWIEは、ドキュメント全体のレベルで概念的エンティティの相互作用および属性を記述することを目的としたエンティティ中心型データセットとして設計されている。これは、現在主流の「メンション駆動型」アプローチ(個々の文における固有表現のメンションを検出・分類する)とは対照的である。さらに、DWIEを用いたIEモデルの構築と評価には、以下の2つの主要な課題が存在する。第一に、エンティティ中心型のDWIEデータセットにおいて、NERおよびREタスクに従来のメンションレベル評価指標を適用すると、頻繁に出現するエンティティに偏った評価結果が生じる可能性がある。この問題に対処するため、予測エンティティおよび正解エンティティを構成するメンション数を考慮した新たなエンティティ駆動型指標を提案する。第二に、ドキュメントレベルでのマルチタスク注釈は、ドキュメント内の異なる部分に位置するエンティティメンション間、および異なるタスク間で情報の伝達を必要とするため、統合学習設定下でのモデルの情報伝達能力が求められる。これを実現するために、ドキュメントレベルのメンションスパン間でグラフベースのニューラルメッセージパッシング技術を用いることを提案する。実験の結果、統合モデルにニューラルグラフ伝搬を組み込むことで、F1スコアが最大5.5ポイント向上することが確認された。これは、DWIEがマルチタスクIEにおける表現学習に向けたグラフニューラルネットワークのさらなる研究を促進する可能性を示している。DWIEは、https://github.com/klimzaporojets/DWIE にて公開されている。