2ヶ月前

テキストからクロスコンテクストのエンティティ表現を学習する

Jeffrey Ling; Nicholas FitzGerald; Zifei Shan; Livio Baldini Soares; Thibault Févry; David Weiss; Tom Kwiatkowski
テキストからクロスコンテクストのエンティティ表現を学習する
要約

言語モデルタスクでは、単語や単語の断片が局所的な文脈に基づいて予測されます。この手法は、単語の埋め込みと文脈依存表現を学習するために非常に効果的でした。世界の知識を機械読み取り可能な知識ベースや人間が読める百科事典にコード化する試みが、しばしばエンティティ中心であるという観察から、私たちはブランクを埋めるタスクを使用して、テキスト文脈で言及されたエンティティの文脈非依存表現を学習することを調査しました。大規模なニューラルモデルの訓練により、高品質なエンティティ表現を学習できることを示しました。そして、以下の4つの領域で成功した結果を得ました:(1) 既存のエンティティレベル分類ベンチマーク(TypeNetにおける前研究との比較で64%の誤差削減)(Murtyら, 2018);(2) 新規提案の少ショットカテゴリ再構築タスク;(3) 既存のエンティティリンクベンチマーク(CoNLL-Aidaにおいてリンク特有の機能を使わずに最先端性能と同等の結果を得ました。またTAC-KBP 2010においてエイリア斯塔ブル、外部知識ベース、またはドメイン内訓練データを使用せずに89.8%のスコアを得ました);(4) エンティティを一意に特定するトリビア質問への回答。私たちの全体的なエンティティ表現は、「スコットランド出身のサッカー選手」のような細かいタイプカテゴリーを符号化しており、次のようなトリビア質問に答えることができます:ベルリンにあるシャンダウ刑務所の最後の収容者は誰でしたか?