il y a 2 mois

mGPT : Les apprenants à faible supervision deviennent multilingues

Oleh Shliazhko; Alena Fenogenova; Maria Tikhonova; Vladislav Mikhailov; Anastasia Kozlova; Tatiana Shavrina

Résumé

Des études récentes rapportent que les modèles de langage auto-régressifs peuvent résoudre avec succès de nombreuses tâches en traitement du langage naturel (NLP) via des paradigmes d'apprentissage à zéro et peu de tirages, ce qui ouvre de nouvelles possibilités pour l'utilisation des modèles de langage pré-entraînés. Cet article présente deux modèles auto-régressifs similaires au GPT dotés respectivement de 1,3 milliard et 13 milliards de paramètres, entraînés sur 60 langues issues de 25 familles linguistiques à l'aide de Wikipedia et du Colossal Clean Crawled Corpus. Nous avons reproduit l'architecture GPT-3 en utilisant les sources GPT-2 et le mécanisme d'attention clairsemée ; les cadres Deepspeed et Megatron nous ont permis de paralléliser efficacement les étapes d'entraînement et d'inférence. Les modèles résultants montrent des performances comparables aux modèles XGLM récemment publiés par Facebook, couvrant un plus grand nombre de langues et améliorant les possibilités en NLP pour les langues à faibles ressources des pays du Commonwealth des États indépendants (CIS) et les petites nations russes. Nous détaillons la motivation derrière les choix de conception architecturale, décrivons soigneusement la chaîne de préparation des données, et entraînons cinq versions réduites du modèle pour sélectionner la stratégie de tokenisation multilingue la plus optimale. Nous mesurons la perplexité du modèle dans toutes les langues couvertes et évaluons sa performance sur une large gamme de tâches multilingues, y compris la classification, la génération, l'étiquetage séquentiel et l'exploration des connaissances. Les modèles ont été évalués à l'aide des méthodes d'apprentissage à zéro tirages et peu de tirages. De plus, nous avons comparé les tâches de classification avec le modèle multilingue d'avant-garde XGLM. Le code source et le modèle mGPT XL sont rendus publiquement disponibles.