11日前
知識拡張型コンテキスト依存語表現
Matthew E. Peters, Mark Neumann, Robert L. Logan IV, Roy Schwartz, Vidur Joshi, Sameer Singh, Noah A. Smith

要約
文脈的な単語表現は、通常、構造化されておらずラベルのないテキスト上で学習されるため、現実世界の実体に対して明示的な接地を持たず、それらの実体に関する事実を記憶できることも少ない。本研究では、複数の知識ベース(KB)を大規模モデルに埋め込む一般的な手法を提案する。これにより、モデルの表現能力に構造化された人間が編集した知識を統合する。各知識ベースに対して、まず統合型エンティティリンクャーを用いて関連するエンティティ表現を検索し、その後、単語からエンティティへの注目メカニズム(word-to-entity attention)を用いて文脈的な単語表現を更新する。従来のアプローチとは異なり、エンティティリンクャーと自己教師付き言語モデリングの目的関数を、少量のエンティティリンクの教師信号と大量の生テキストを組み合わせたマルチタスク設定で、エンド・ツー・エンドで同時に学習する。WordNetとWikipediaの一部をBERTに統合した結果、知識強化型BERT(KnowBert)は、プローブタスクにおける事実の再現能力および関係抽出、エンティティタイプ分類、語義の意味あいまいさ解消といった下流タスクでの性能が向上した。また、KnowBertの実行時間はBERTと同等であり、大規模な知識ベースにもスケーラブルである。