Franchir le plafond de verre à 80 % : relever le state-of-the-art en désambiguïsation de sens des mots grâce à l’intégration d’informations de graphes de connaissances

Les architectures neurales constituent actuellement l’état de l’art en détermination du sens des mots (Word Sense Disambiguation, WSD). Toutefois, elles exploitent de manière limitée l’abondante information relationnelle encodée dans les bases de connaissances lexicographiques (Lexical Knowledge Bases, LKB). Nous présentons EWISER (Enhanced WSD Integrating Synset Embeddings and Relations), une architecture supervisée neuronale capable d’accéder à cette richesse de connaissances en intégrant des informations provenant du graphe de la LKB dans l’architecture neuronale, tout en exploitant des embeddings préentraînés de synsets. Cette approche permet au modèle de prédire des synsets non présents dans l’ensemble d’entraînement. En conséquence, nous établissons un nouvel état de l’art sur presque toutes les configurations d’évaluation considérées, dépassant pour la première fois, dans le cadre de la concaténation de tous les benchmarks standard anglais en WSD sur tous les mots, le plafond des 80 %. Sur le WSD multilingue sur tous les mots, nous obtenons des résultats de pointe en n’entraînant le modèle qu’à partir de données uniquement en anglais.