AlexaTM 20B : Apprentissage peu supervisé à l’aide d’un modèle Seq2Seq multilingue à grande échelle

Dans ce travail, nous démontrons que les modèles multilingues à grande échelle de type séquence à séquence (seq2seq), pré-entraînés sur un mélange de tâches de débruitage et de modélisation linguistique causale (CLM), sont des apprentissages peu supervisés plus efficaces que les modèles à décodeur unique sur diverses tâches. En particulier, nous entraînons un modèle multilingue seq2seq de 20 milliards de paramètres, nommé Alexa Teacher Model (AlexaTM 20B), et montrons qu’il atteint des performances de pointe (SOTA) sur les tâches de résumé en 1-exemple, surpassant un modèle décodeur PaLM bien plus volumineux, de 540 milliards de paramètres. AlexaTM 20B atteint également des performances de pointe en traduction automatique en 1-exemple, notamment pour les langues à faibles ressources, sur presque toutes les paires linguistiques prises en charge par le modèle (arabe, anglais, français, allemand, hindi, italien, japonais, marathi, portugais, espagnol, tamoul et télougou) sur le jeu de données Flores-101. Nous montrons également dans un cadre zéro-shot que AlexaTM 20B surpasse GPT3 (175 milliards de paramètres) sur les jeux de données SuperGLUE et SQuADv2, tout en offrant des performances de pointe sur des tâches multilingues telles que XNLI, XCOPA, Paws-X et XWinograd. Globalement, nos résultats constituent une argumentation convaincante en faveur des modèles seq2seq comme alternative puissante aux modèles à décodeur unique pour l'entraînement des grands modèles linguistiques (LLM).