HyperAIHyperAI
il y a 17 jours

ADAPT à SemEval-2018 Tâche 9 : Embeddings de mots Skip-Gram pour la découverte non supervisée d'hyperonymes dans des corpus spécialisés

{Filip Klubi{\v{c}}ka, Alfredo Maldonado}
ADAPT à SemEval-2018 Tâche 9 : Embeddings de mots Skip-Gram pour la découverte non supervisée d'hyperonymes dans des corpus spécialisés
Résumé

Cet article présente un système non supervisé simple mais performant pour la découverte d’hyperonymes. Le système utilise des embeddings de mots du type skip-gram avec échantillonnage négatif, entraînés sur des corpus spécialisés. Les candidats à l’hyperonymie d’un mot d’entrée sont prédits en se basant sur des scores de similarité cosinus. Deux jeux de modèles d’embeddings de mots ont été entraînés séparément sur deux corpus spécialisés : un corpus médical et un corpus de l’industrie musicale. Notre système a obtenu le meilleur score dans le domaine médical parmi les systèmes non supervisés concurrents, mais a performé médiocrement dans le domaine de l’industrie musicale. Le système ne dépend d’aucune donnée externe autre que des corpus spécialisés bruts.