HyperAIHyperAI
il y a 7 jours

Def2Vec : Embeddings de mots extensibles à partir de définitions lexicographiques

{Roberto Tedesco, Vincenzo Scotti, Irene Morazzoni}
Def2Vec : Embeddings de mots extensibles à partir de définitions lexicographiques
Résumé

Def2Vec introduit un nouveau paradigme pour les embeddings de mots, en exploitant les définitions des dictionnaires afin d’apprendre des représentations sémantiques. En construisant des matrices terme-document à partir des définitions et en appliquant une Analyse Sémantique Latente (LSA), Def2Vec génère des embeddings offrant à la fois de fortes performances et une grande extensibilité. Dans des évaluations couvrant l’identification de partie du discours (POS), la reconnaissance d’entités nommées (NER), le découpage syntaxique (chunking) et la similarité sémantique, Def2Vec atteint souvent les performances des modèles de pointe tels que Word2Vec, GloVe et fastText, voire les dépasse parfois. La seconde matrice factorisée produite par la LSA permet une extension efficace des embeddings aux mots hors vocabulaire (out-of-vocabulary). En réconciliant efficacement les avantages des définitions de dictionnaire avec les embeddings basés sur la LSA, Def2Vec produit des représentations sémantiques informatives, particulièrement remarquables compte tenu de ses besoins réduits en données. Ce travail contribue à approfondir la compréhension de la génération d’embeddings de mots en intégrant des informations lexicologiques structurées et une extension d’embeddings efficace.

Def2Vec : Embeddings de mots extensibles à partir de définitions lexicographiques | Articles de recherche récents | HyperAI