Liage d'entités interlinguistique neuronal

Un défi majeur dans le domaine du Liage d'Entités (EL) est l'utilisation efficace des informations contextuelles pour désambiguïser les mentions de Wikipédia qui peuvent faire référence à différentes entités selon les contextes. Ce problème s'aggrave avec le liage d'entités interlinguistique, qui consiste à relier des mentions écrites dans des documents non anglophones aux entrées de la Wikipédia en anglais : pour comparer les indices textuels entre différentes langues, il est nécessaire de calculer la similarité entre les fragments textuels en plusieurs langues. Dans cet article, nous proposons un modèle EL neuronal qui apprend des similarités et des dissimilarités fines entre la requête et le document candidat sous différents angles, combinant des techniques de convolution et de réseaux tensoriels. De plus, nous montrons que ce système formé en anglais peut être appliqué, dans un cadre d'apprentissage sans supervision (zero-shot learning), à d'autres langues grâce à une utilisation surprenamment efficace des plongements multilingues (multi-lingual embeddings). Le système proposé présente une forte preuve empirique, produisant des résultats de pointe en anglais ainsi qu'en interlangue : sur les jeux de données TAC 2015 en espagnol et en chinois.