HyperAIHyperAI
il y a 9 jours

Liens entre entités dans 100 langues

Jan A. Botha, Zifei Shan, Daniel Gillick
Liens entre entités dans 100 langues
Résumé

Nous proposons une nouvelle formulation pour le lien d'entités multilingue, dans laquelle les mentions spécifiques à une langue sont mappées vers une base de connaissances indépendante de la langue. Nous entraînons un modèle à encodage dual dans ce nouveau cadre, s'appuyant sur des travaux antérieurs mais améliorant la représentation des caractéristiques, le mining de négatifs et en introduisant une tâche auxiliaire de correspondance entre entités, afin d’obtenir un modèle unique de récupération d’entités couvrant plus de 100 langues et 20 millions d’entités. Ce modèle dépasse les résultats les plus avancés obtenus dans un cadre de lien multilingue bien plus restreint. Les entités rares et les langues à faibles ressources posent des défis particuliers à cette échelle, ce qui nous amène à plaider pour une attention accrue aux évaluations en zéro-shot et en few-shot. À cet effet, nous introduisons Mewsli-9, un nouveau grand jeu de données multilingue (http://goo.gle/mewsli-dataset) adapté à notre cadre, et montrons comment une analyse fondée sur la fréquence a fourni des insights clés pour l’amélioration de notre modèle et de son entraînement.