HyperAIHyperAI

Command Palette

Search for a command to run...

mGPT : Les apprenants à faible supervision deviennent multilingues

Oleh Shliazhko extsuperscript1,* Alena Fenogenova extsuperscript2 Maria Tikhonova extsuperscript2,3 Anastasia Kozlova extsuperscript2 Vladislav Mikhailov extsuperscript2,*† Tatiana Shayrina extsuperscript2,4,5,6,*

Résumé

Des études récentes rapportent que les modèles de langage auto-régressifs peuvent résoudre avec succès de nombreuses tâches en traitement du langage naturel (NLP) via des paradigmes d'apprentissage à zéro et peu de tirages, ce qui ouvre de nouvelles possibilités pour l'utilisation des modèles de langage pré-entraînés. Cet article présente deux modèles auto-régressifs similaires au GPT dotés respectivement de 1,3 milliard et 13 milliards de paramètres, entraînés sur 60 langues issues de 25 familles linguistiques à l'aide de Wikipedia et du Colossal Clean Crawled Corpus. Nous avons reproduit l'architecture GPT-3 en utilisant les sources GPT-2 et le mécanisme d'attention clairsemée ; les cadres Deepspeed et Megatron nous ont permis de paralléliser efficacement les étapes d'entraînement et d'inférence. Les modèles résultants montrent des performances comparables aux modèles XGLM récemment publiés par Facebook, couvrant un plus grand nombre de langues et améliorant les possibilités en NLP pour les langues à faibles ressources des pays du Commonwealth des États indépendants (CIS) et les petites nations russes. Nous détaillons la motivation derrière les choix de conception architecturale, décrivons soigneusement la chaîne de préparation des données, et entraînons cinq versions réduites du modèle pour sélectionner la stratégie de tokenisation multilingue la plus optimale. Nous mesurons la perplexité du modèle dans toutes les langues couvertes et évaluons sa performance sur une large gamme de tâches multilingues, y compris la classification, la génération, l'étiquetage séquentiel et l'exploration des connaissances. Les modèles ont été évalués à l'aide des méthodes d'apprentissage à zéro tirages et peu de tirages. De plus, nous avons comparé les tâches de classification avec le modèle multilingue d'avant-garde XGLM. Le code source et le modèle mGPT XL sont rendus publiquement disponibles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp