11日前
文脈に基づくスパン表現を用いたエンティティ、関係、イベント抽出
David Wadden, Ulme Wennberg, Yi Luan, Hannaneh Hajishirzi

要約
本研究では、固有表現抽出(Named Entity Recognition)、関係抽出(Relation Extraction)、イベント抽出(Event Extraction)の3つの情報抽出タスクを統合的に処理するマルチタスクフレームワークの性能を検証する。本フレームワーク(DyGIE++と呼ぶ)は、文内(within-sentence)および文間(cross-sentence)の文脈を捉えるために、テキストスパンを列挙し、精緻化し、スコアリングすることで、すべてのタスクを実現している。このフレームワークは、異なるドメインから選ばれた4つのデータセットにおいて、すべてのタスクで最先端(state-of-the-art)の性能を達成した。また、スパン表現の構築に用いるさまざまな手法を比較する実験を行った。BERTのような文脈依存型埋め込み(contextualized embeddings)は、同じ文または隣接する文内のエンティティ間の関係を効果的に捉えるが、動的スパングラフの更新により、長距離の文間関係もモデル化できる。例えば、予測された共参照リンクを介してスパン表現を伝搬させることで、難解なエンティティ参照の意味解消が可能となる。本研究のコードはGitHubにて公開されており、https://github.com/dwadden/dygiepp から入手可能であり、新たなタスクやデータセットへの容易な適応が可能である。