Command Palette
Search for a command to run...
Apprentissage de vecteurs de mots pour 157 langues
Apprentissage de vecteurs de mots pour 157 langues
Edouard Grave Piotr Bojanowski Prakhar Gupta Armand Joulin Tomas Mikolov
Résumé
Les représentations de mots distribuées, également appelées vecteurs de mots, ont récemment été appliquées à de nombreuses tâches en traitement automatique des langues naturelles, conduisant à des performances de pointe. Un élément clé du succès de ces représentations est leur entraînement sur des corpus très volumineux, et l'utilisation de ces modèles pré-entraînés dans les tâches ultérieures. Dans cet article, nous décrivons comment nous avons formé de telles représentations de mots de haute qualité pour 157 langues. Nous avons utilisé deux sources de données pour entraîner ces modèles : l'encyclopédie en ligne libre Wikipédia et les données issues du projet Common Crawl. Nous présentons également trois nouveaux jeux de données d'analogies lexicales pour évaluer ces vecteurs de mots, spécifiquement pour le français, l'hindi et le polonais. Enfin, nous évaluons nos vecteurs de mots pré-entraînés sur 10 langues pour lesquelles des jeux de données d'évaluation existent, montrant des performances très solides par rapport aux modèles précédents.