Désambiguïsation sémantique des mots à l'aide d'un LSTM bidirectionnel

Dans cet article, nous présentons un modèle propre et efficace pour la désambiguïsation des sens des mots. Notre approche utilise un réseau de mémoire à court et long terme bidirectionnel (bidirectional long short-term memory network) partagé entre tous les mots. Cela permet au modèle de partager la force statistique et d'évoluer bien avec la taille du vocabulaire. Le modèle est entraîné de bout en bout, directement du texte brut aux étiquettes de sens, et utilise efficacement l'ordre des mots. Nous évaluons notre approche sur deux jeux de données standards, en utilisant des paramètres hyperparamétriques identiques qui sont à leur tour ajustés sur un troisième ensemble de données réservées. Nous n'utilisons aucune ressource externe (par exemple, graphes de connaissances, étiquetage morphosyntaxique, etc.), caractéristiques spécifiques à une langue ou règles élaborées manuellement, mais nous obtenons tout de même des résultats statistiquement équivalents aux meilleurs systèmes d'état de l'art qui ne font pas face à ces limitations.