Modèle AutoSense pour l’induction de sens des mots

L'induction de sens lexicaux (ISL), ou la tâche de découvrir automatiquement les différents sens ou significations d'un mot, présente trois défis principaux : l'adaptabilité au domaine, la détection de nouveaux sens et la flexibilité de granularité des sens. Bien que les modèles actuels à variables latentes soient connus pour résoudre les deux premiers défis, ils ne sont pas assez flexibles pour s'adapter aux différentes granularités de sens lexicaux, qui varient considérablement d'un mot à l'autre, allant d'un seul sens pour le mot « aardvark » à plus de 50 sens pour le mot « play ». Les modèles actuels nécessitent soit un réglage des hyperparamètres, soit une induction non paramétrique du nombre de sens, ce que nous jugeons tous deux inefficaces. Par conséquent, nous visons à éliminer ces exigences et à résoudre le problème de granularité des sens en proposant AutoSense, un modèle à variables latentes basé sur deux observations : (1) les sens sont représentés par une distribution sur les sujets, et (2) les sens génèrent des paires entre le mot cible et ses mots voisins. Ces observations atténuent le problème en (a) éliminant les faux-sens inutiles et (b) en induisant des sens lexicaux plus fins. Les résultats montrent d'importantes améliorations par rapport aux modèles de pointe sur des jeux de données ISL populaires. Nous montrons également qu'AutoSense est capable d'apprendre la granularité appropriée des sens d'un mot. Enfin, nous appliquons AutoSense à la tâche de désambiguïsation non supervisée des noms d'auteurs, où le problème de granularité des sens est plus évident, et démontrons que AutoSense est nettement supérieur aux modèles concurrents. Nous partageons nos données et notre code ici : https://github.com/rktamplayo/AutoSense.