il y a 2 mois

Désambiguïsation sémantique des mots basée sur les modèles de sujets

Devendra Singh Chaplot; Ruslan Salakhutdinov

Résumé

La Détermination du Sens des Mots (Word Sense Disambiguation, WSD) est un problème ouvert en Traitement Automatique des Langues Naturelles qui est particulièrement difficile et utile dans le cadre non supervisé, où tous les mots d'un texte donné doivent être désambiguïsés sans utiliser de données étiquetées. Généralement, les systèmes WSD utilisent la phrase ou une petite fenêtre de mots autour du mot cible comme contexte pour la désambiguïsation, car leur complexité computationnelle augmente exponentiellement avec la taille du contexte. Dans cet article, nous exploitons le formalisme des modèles de sujets pour concevoir un système WSD dont la complexité augmente linéairement avec le nombre de mots dans le contexte. En conséquence, notre système est capable d'utiliser l'ensemble du document comme contexte pour un mot à désambiguïser. La méthode proposée est une variante de l'Allocation Dirichlet Latente (Latent Dirichlet Allocation, LDA) dans laquelle les proportions de sujets pour un document sont remplacées par les proportions de synsets. Nous utilisons également les informations contenues dans WordNet en attribuant une loi a priori non uniforme à la distribution des synsets sur les mots et une loi logistique-normale à la distribution des documents sur les synsets. Nous évaluons la méthode proposée sur les jeux de données WSD anglais Senseval-2, Senseval-3, SemEval-2007, SemEval-2013 et SemEval-2015 et montrons qu'elle surpass significativement le système WSD non supervisé basé sur les connaissances le plus performant actuellement.