HyperAIHyperAI

Command Palette

Search for a command to run...

ラベルのない文書を活用してエンティティリンク性能を向上させる

Phong Le; Ivan Titov

概要

現代のエンティティリンクシステムは、特定のタスクのために注釈が付けられた大量の文書(例:AIDA CoNLL)に依存しています。これに対して、我々は自然に存在する情報のみを活用するアプローチを提案します:ラベル付けされていない文書とウィキペディアです。我々のアプローチは2つの段階で構成されています。まず、ラベル付けされていない文書内の各メンションに対して、高リコールの候補エンティティリストを作成します。次に、これらの候補リストを弱い教師ありデータとして利用し、ドキュメントレベルのエンティティリンクモデルを制約します。このモデルはエンティティを潜在変数として扱い、ラベル付けされていないテキストのコレクション上で推定される際には、各メンションの局所的なコンテキストとドキュメント内の他のエンティティとの一貫性に基づいてエンティティを選択する能力を学習します。結果的に、本アプローチは標準的なテストセットにおいて完全教師ありの最先端システムと匹敵する性能を示しました。また、非常に困難な設定下でもその性能に近づくことが示されました:すなわち、教師ありシステムの推定に使用されたデータからサンプリングされたテストセットで評価した場合です。ウィキペディアのみを使用したモデルのトレーニングとの比較により、ラベル付けされていない文書をモデリングすることが有益であることが明確になりました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています