8日前
多言語対応自己回帰型エンティティリンクング
Nicola De Cao, Ledell Wu, Kashyap Popat, Mikel Artetxe, Naman Goyal, Mikhail Plekhanov, Luke Zettlemoyer, Nicola Cancedda, Sebastian Riedel, Fabio Petroni

要約
我々は、多言語エンティティリンク(MEL)という問題に対するシーケンス・トゥ・シーケンス型システムであるmGENREを提案する。MELとは、特定言語に依存する表記(mention)を多言語知識ベース(KB)に一致させるタスクである。与えられた言語における表記に対して、mGENREは自己回帰的に左から右へ、トークン単位でターゲットエンティティの名前を逐次予測する。自己回帰的な定式化により、表記文字列とエンティティ名の間で効果的なクロスエンコーディングが可能となり、従来の表記ベクトルとエンティティベクトル間の内積による類似度計算よりも、より豊かな相互作用を捉えることができる。また、このアプローチは、表記テーブルに存在しない表記や、大規模なベクトルインデックスを事前構築する必要のない状況においても、大規模なKB内での高速検索を実現する。既存のMEL手法では各エンティティに対して一つの表現を使用しているが、mGENREは可能な限り多くの言語におけるエンティティ名を対象に照合することで、入力言語とターゲット名との間の言語的関係を活用することができる。さらに、訓練データが全く存在しないゼロショット設定において、mGENREはターゲット言語を予測時に周辺化(marginalization)可能な潜在変数として扱う。このアプローチにより、平均精度が50%以上向上することが示された。我々は、3つの代表的なMELベンチマークにおける広範な実験を通じて、本手法の有効性を検証し、新たなSOTA(最良の結果)を達成した。コードおよび事前学習済みモデルは、https://github.com/facebookresearch/GENRE にて公開されている。