2ヶ月前

ラベルのない文書を活用してエンティティリンク性能を向上させる

Phong Le; Ivan Titov
ラベルのない文書を活用してエンティティリンク性能を向上させる
要約

現代のエンティティリンクシステムは、特定のタスクのために注釈が付けられた大量の文書(例:AIDA CoNLL)に依存しています。これに対して、我々は自然に存在する情報のみを活用するアプローチを提案します:ラベル付けされていない文書とウィキペディアです。我々のアプローチは2つの段階で構成されています。まず、ラベル付けされていない文書内の各メンションに対して、高リコールの候補エンティティリストを作成します。次に、これらの候補リストを弱い教師ありデータとして利用し、ドキュメントレベルのエンティティリンクモデルを制約します。このモデルはエンティティを潜在変数として扱い、ラベル付けされていないテキストのコレクション上で推定される際には、各メンションの局所的なコンテキストとドキュメント内の他のエンティティとの一貫性に基づいてエンティティを選択する能力を学習します。結果的に、本アプローチは標準的なテストセットにおいて完全教師ありの最先端システムと匹敵する性能を示しました。また、非常に困難な設定下でもその性能に近づくことが示されました:すなわち、教師ありシステムの推定に使用されたデータからサンプリングされたテストセットで評価した場合です。ウィキペディアのみを使用したモデルのトレーニングとの比較により、ラベル付けされていない文書をモデリングすることが有益であることが明確になりました。

ラベルのない文書を活用してエンティティリンク性能を向上させる | 最新論文 | HyperAI超神経