HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de vecteurs de mots pour 157 langues

Edouard Grave Piotr Bojanowski Prakhar Gupta Armand Joulin Tomas Mikolov

Résumé

Les représentations de mots distribuées, également appelées vecteurs de mots, ont récemment été appliquées à de nombreuses tâches en traitement automatique des langues naturelles, conduisant à des performances de pointe. Un élément clé du succès de ces représentations est leur entraînement sur des corpus très volumineux, et l'utilisation de ces modèles pré-entraînés dans les tâches ultérieures. Dans cet article, nous décrivons comment nous avons formé de telles représentations de mots de haute qualité pour 157 langues. Nous avons utilisé deux sources de données pour entraîner ces modèles : l'encyclopédie en ligne libre Wikipédia et les données issues du projet Common Crawl. Nous présentons également trois nouveaux jeux de données d'analogies lexicales pour évaluer ces vecteurs de mots, spécifiquement pour le français, l'hindi et le polonais. Enfin, nous évaluons nos vecteurs de mots pré-entraînés sur 10 langues pour lesquelles des jeux de données d'évaluation existent, montrant des performances très solides par rapport aux modèles précédents.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage de vecteurs de mots pour 157 langues | Articles | HyperAI