Enrichissement des vecteurs de mots avec des informations sous-motiales

Les représentations continues de mots, formées sur de grands corpus non étiquetés, sont utiles pour de nombreuses tâches de traitement du langage naturel. Les modèles populaires qui apprennent ces représentations ignorent la morphologie des mots en attribuant un vecteur distinct à chaque mot. C'est une limitation, particulièrement pour les langues dotées de grands vocabulaires et de nombreux mots rares. Dans cet article, nous proposons une nouvelle approche basée sur le modèle skipgram, où chaque mot est représenté comme un sac de $n$-grammes de caractères. Une représentation vectorielle est associée à chaque $n$-gramme de caractères ; les mots étant représentés par la somme de ces représentations. Notre méthode est rapide, permettant d'entraîner des modèles sur de grands corpus rapidement et nous permet également de calculer des représentations de mots pour des mots qui n'ont pas été présents dans les données d'entraînement. Nous évaluons nos représentations de mots sur neuf langues différentes, tant pour les tâches de similarité lexicale que pour celles d'analogie lexicale. En comparant avec les représentations morphologiques récemment proposées, nous montrons que nos vecteurs atteignent des performances au niveau de l'état de l'art dans ces tâches.