ConSeC : La désambiguïsation du sens des mots comme compréhension continue du sens

Les systèmes supervisés sont aujourd’hui devenus la méthode standard pour la désambiguïsation du sens des mots (WSD), avec les modèles linguistiques basés sur les Transformers comme composant principal. Toutefois, bien que ces systèmes aient effectivement atteint des performances sans précédent, presque tous fonctionnent sous l’hypothèse restrictive selon laquelle, étant donné un contexte, chaque mot peut être désambiguïsé de manière indépendante, sans tenir compte des choix de sens des autres mots. Pour remédier à cette limitation et abandonner cette hypothèse, nous proposons CONtinuous SEnse Comprehension (ConSeC), une nouvelle approche pour la WSD : en s’appuyant sur une reformulation récente de cette tâche comme un problème d’extraction de texte, nous l’adaptons à notre formulation et introduisons une stratégie de boucle de rétroaction qui permet à la désambiguïsation d’un mot cible de dépendre non seulement de son contexte, mais aussi des sens explicitement attribués aux mots voisins. Nous évaluons ConSeC et analysons comment ses composants lui permettent de surpasser tous ses prédécesseurs et d’établir un nouveau record sur la tâche de WSD en anglais. Nous examinons également la performance de ConSeC dans un cadre multilingue, en nous concentrant sur 8 langues présentant des niveaux variés de disponibilité de ressources, et rapportons des améliorations significatives par rapport aux systèmes antérieurs. Nous mettons notre code à disposition à l’adresse suivante : https://github.com/SapienzaNLP/consec.