HyperAIHyperAI

Command Palette

Search for a command to run...

Désambiguïsation sémantique des mots basée sur les modèles de sujets

Devendra Singh Chaplot; Ruslan Salakhutdinov

Résumé

La Détermination du Sens des Mots (Word Sense Disambiguation, WSD) est un problème ouvert en Traitement Automatique des Langues Naturelles qui est particulièrement difficile et utile dans le cadre non supervisé, où tous les mots d'un texte donné doivent être désambiguïsés sans utiliser de données étiquetées. Généralement, les systèmes WSD utilisent la phrase ou une petite fenêtre de mots autour du mot cible comme contexte pour la désambiguïsation, car leur complexité computationnelle augmente exponentiellement avec la taille du contexte. Dans cet article, nous exploitons le formalisme des modèles de sujets pour concevoir un système WSD dont la complexité augmente linéairement avec le nombre de mots dans le contexte. En conséquence, notre système est capable d'utiliser l'ensemble du document comme contexte pour un mot à désambiguïser. La méthode proposée est une variante de l'Allocation Dirichlet Latente (Latent Dirichlet Allocation, LDA) dans laquelle les proportions de sujets pour un document sont remplacées par les proportions de synsets. Nous utilisons également les informations contenues dans WordNet en attribuant une loi a priori non uniforme à la distribution des synsets sur les mots et une loi logistique-normale à la distribution des documents sur les synsets. Nous évaluons la méthode proposée sur les jeux de données WSD anglais Senseval-2, Senseval-3, SemEval-2007, SemEval-2013 et SemEval-2015 et montrons qu'elle surpass significativement le système WSD non supervisé basé sur les connaissances le plus performant actuellement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp