6ヶ月前

概要

関係タプルは、2つのエンティティとそれらの間の関係から構成され、通常は非構造化テキスト中に存在する。一つの文には複数の関係タプルが含まれる場合があり、それらは1つまたは両方のエンティティを共有する可能性がある。文からこのような関係タプルを抽出することは困難なタスクであり、タプル間でエンティティが共有されたり重複したりする場合、その難易度はさらに高くなる。従来の研究では、まずエンティティを特定し、その後にそれらの間の関係を検出するパイプラインアプローチが採用されてきたが、これにより文内の関係タプル間の相互作用を捉え損なうことがあった。本論文では、エンコーダ・デコーダアーキテクチャを活用してエンティティと関係を同時に抽出する2つのアプローチを提案する。第一のアプローチでは、関係タプルを表現するための新しいスキームを提案し、機械翻訳モデルのように1語ずつ生成するデコーダが、異なる長さの完全なエンティティ名を含み、かつ重複するエンティティを含むすべてのタプルを正確に抽出できるようにしている。第二のアプローチとして、ポインターネットワークに基づくデコーディング手法を提案し、各時刻ステップで1つの完全なタプルを一括生成する。公開されているニューヨーク・タイムズコーパスを用いた実験の結果、提案手法は従来の手法を上回り、著しく高いF1スコアを達成した。

ソースPDF