WiC : le Jeu de Données Mot-en-Contexte pour l'Évaluation des Représentations Sensibles au Contexte des Sens des Mots

Par conception, les plongements de mots (word embeddings) sont incapables de modéliser la nature dynamique des sémantiques des mots, c'est-à-dire la propriété des mots de correspondre à potentiellement différents sens. Pour remédier à cette limitation, de nombreuses techniques spécialisées de représentation du sens, telles que les plongements de sens ou les plongements contextualisés, ont été proposées. Cependant, malgré la popularité des recherches sur ce sujet, très peu de bancs d'essai d'évaluation existent qui se concentrent spécifiquement sur la sémantique dynamique des mots. Dans cet article, nous montrons que les modèles existants ont dépassé le plafond de performance du jeu de données d'évaluation standard pour cette finalité, à savoir le Stanford Contextual Word Similarity, et soulignons ses insuffisances. Pour répondre au manque d'un banc d'essai approprié, nous présentons un grand ensemble de données Word in Context (WiC), basé sur des annotations recueillies par des experts, destiné à l'évaluation générique des représentations sensibles au contexte. WiC est disponible à l'adresse https://pilehvar.github.io/wic/.