Amélioration du sens des mots par désambiguïsation en utilisant des représentations contextuelles pré-entraînées

Les représentations de mots contextualisées sont capables d’attribuer des représentations différentes au même mot selon le contexte, et elles se sont révélées efficaces dans diverses tâches de traitement automatique du langage naturel, telles que la réponse aux questions, la reconnaissance d’entités nommées ou l’analyse d’opinion. Toutefois, les évaluations effectuées sur la désambiguïsation des sens des mots (WSD, word sense disambiguation) dans les travaux antérieurs montrent que l’utilisation de représentations contextualisées ne dépasse pas les performances de l’approche de pointe actuelle, qui repose sur des embeddings de mots non contextualisés. Dans cet article, nous explorons différentes stratégies d’intégration des représentations pré-entraînées contextualisées, et notre meilleure stratégie atteint des taux de précision dépassant significativement les meilleurs résultats publiés précédemment sur plusieurs jeux de données standards de WSD. Nous mettons le code source à disposition à l’adresse suivante : https://github.com/nusnlp/contextemb-wsd.