8日前

100言語におけるエンティティリンクング

Jan A. Botha, Zifei Shan, Daniel Gillick
100言語におけるエンティティリンクング
要約

我々は、言語特有の表記が言語に依存しない知識ベースに一致する新たな多言語エンティティリンクの定式化を提案する。この新設定において、従来の研究を基に、より洗練された特徴表現、ネガティブマイニング手法、および補助的なエンティティペアリングタスクを導入したデュアルエンコーダーを学習することで、100言語以上、2,000万エンティティをカバーする単一のエンティティ検索モデルを構築した。このモデルは、はるかに限られた多言語リンクタスクに比べて、最先端の成果を上回っている。大規模な設定において、稀なエンティティや低リソース言語が大きな課題となるため、ゼロショットおよびフェイショット評価への注力が強く求められる。こうした目的の下、本研究では、我々の設定に適合した大規模な新規多言語データセット「Mewsli-9」(http://goo.gle/mewsli-dataset)を提供し、頻度に基づく分析がモデル設計および学習の改善に重要な知見をもたらしたことを示した。