CoType: 知識ベースを用いたタイプ付きエンティティとリレーションの合同抽出

テキストから対象のエンティティと関係を抽出することは、大量のテキストコーパスを理解するために重要です。従来、エンティティ関係抽出システムは、学習に人間が注釈したコーパスに依存し、段階的なパイプラインを採用していました。このようなシステムは新しいドメインへの移植には追加の人間の専門知識が必要であり、またパイプライン全体にエラーが連鎖的に影響を与える可能性があります。本論文では、知識ベースから直感的に得られるラベル付きデータ(つまり、リモート監督)を使用してタイプ付きエンティティと関係の共同抽出について調査します。我々のリモート監督によるタイプラベリングアルゴリズムはコンテクスト非依存であるため、ノイジーな訓練データがこのタスクに対して独自の課題をもたらします。これに対応するため、我々はコテキスト分割アルゴリズムを実行してエンティティ言及を抽出し、エンティティ言及、関係言及、テキスト特徴量およびタイプラベルを2つの低次元空間(それぞれエンティティ言及と関係言及用)に共同埋め込むという新たなドメイン非依存フレームワーク「CoType」を提案します。各空間においてタイプが近いオブジェクトは類似した表現を持つように設計されています。CoTypeはこれらの学習済み埋め込みを使用してテスト(リンク不可能な)言及のタイプを推定します。我々はテキストコーパスと知識ベースから埋め込みを学習するための共同最適化問題を定式化し、ノイジーなラベル付きデータ向けに新規部分ラベル損失関数を採用するとともに、エンティティと関係が互いに与えるクロス制約を捉えるためのオブジェクト「翻訳」機能を導入しました。3つの公開データセットでの実験結果により、CoTypeが異なるドメイン(例:ニュース、バイオメディカル)で有効であることが示され、F1スコアにおいて次の最良手法よりも平均25%向上することが確認されました。