
要約
エンティティリンク(EL)は、意味論的なテキスト理解と情報抽出の重要なタスクです。一般的な手法では、ELのメンション検出(MD)とエンティティ曖昧性解消(ED)の段階を別々に処理し、それらの相互依存関係を利用しません。本稿では、テキスト文書内のエンティティを共同で発見しリンクする最初のニューラルエンドツーエンドELシステムを提案します。主なアイデアは、すべての可能なスパンを潜在的なメンションとして考慮し、MDとEDの決定に役立つコンテクストに基づいた類似度スコアを学習することです。主要な構成要素は、コンテクスト感知メンション埋め込み、エンティティ埋め込み、および確率的なメンション-エンティティマップであり、他の設計された特徴量を求めません。経験的に示すように、十分な訓練データが利用可能であれば、Gerbilプラットフォーム上で当方のエンドツーエンド手法は一般的なシステムよりも著しく優れた性能を発揮します。一方で、テストデータセットが訓練データセットとは異なる注釈規則に従っている場合(例:クエリ/ツイート対ニュース文書)、当方のEDモデルと従来のNERシステムとの組み合わせが最良または第二位のEL精度を提供します。