Apprentissage d'Embeddings de Sens pour l'Induction de Sens Lexicaux

Les méthodes conventionnelles d'induction de sens lexicaux (WSI) représentent généralement chaque occurrence par des caractéristiques linguistiques discrètes ou des caractéristiques de cooccurrence, et entraînent un modèle pour chaque mot polysémique individuellement. Dans cette étude, nous proposons d'apprendre des plongements de sens (sense embeddings) pour la tâche d'induction de sens lexicaux. Pendant la phase d'entraînement, notre méthode induit plusieurs centroïdes de sens (plongement) pour chaque mot polysémique. Pendant la phase de test, notre méthode représente chaque occurrence sous forme de vecteur contextuel et induit son sens en trouvant le centroïde de sens le plus proche dans l'espace de plongement. Les avantages de notre méthode sont les suivants : (1) les vecteurs de sens distribués sont utilisés comme représentations du savoir, entraînés de manière discriminante, et ont généralement une meilleure performance que les modèles distributionnels traditionnels basés sur le comptage, et (2) un modèle général pour l'ensemble du vocabulaire est conjointement entraîné pour induire des centroïdes de sens dans le cadre d'un apprentissage multitâche. Évaluée sur l'ensemble de données SemEval-2010 WSI, notre méthode surpasses tous les participants et la plupart des méthodes récentes à la pointe du domaine. Nous vérifions davantage ces deux avantages en comparant avec des lignes de base soigneusement conçues.