Vers une meilleure induction de sens des mots basée sur la substitution

L'induction de sens des mots (Word Sense Induction, WSI) est la tâche consistant à regrouper de manière non supervisée les utilisations d'un mot au sein d'une phrase pour en distinguer les différents sens. Des travaux récents ont obtenu des résultats solides en regroupant des substituts lexicaux issus de modèles de langage RNN pré-entraînés (ELMo). L'adaptation de cette méthode à BERT améliore encore davantage les scores. Nous étendons la méthode précédente pour prendre en charge un nombre dynamique plutôt qu'un nombre fixe de clusters, comme le font d'autres méthodes importantes, et proposons une méthode d'interprétation des clusters résultants en les associant à leurs substituts les plus informatifs. Nous effectuons ensuite une analyse approfondie des erreurs, mettant en lumière les sources restantes d'erreurs dans la tâche WSI.Notre code est disponible sur https://github.com/asafamr/bertwsi.