il y a 16 jours

Généralisation crosslingue par finetuning multitâche

Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, Xiangru Tang, Dragomir Radev, Alham Fikri Aji, Khalid Almubarak, Samuel Albanie, Zaid Alyafeai, Albert Webson, Edward Raff, Colin Raffel

Voir les détails de l'article

Généralisation crosslingue par finetuning multitâche

Résumé

Le finetuning multitâche piloté par des tâches (MTF) s'est révélé efficace pour améliorer la généralisation des grands modèles linguistiques à de nouvelles tâches dans un cadre zero-shot, mais jusqu'à présent, les études sur le MTF se sont concentrées principalement sur des données et modèles en anglais. Nous appliquons le MTF aux familles de modèles multilingues préentraînés BLOOM et mT5 afin de produire des variantes finetunées appelées BLOOMZ et mT0. Nous constatons qu’un finetuning de grands modèles linguistiques multilingues sur des tâches en anglais utilisant des prompts en anglais permet une généralisation efficace aux langues non anglaises présentes uniquement dans le corpus de préentraînement. Un finetuning sur des tâches multilingues en utilisant des prompts en anglais améliore davantage les performances sur les tâches en anglais comme en langues non anglaises, conduisant à plusieurs résultats state-of-the-art en zero-shot. Nous examinons également le finetuning sur des tâches multilingues en utilisant des prompts traduits automatiquement de l’anglais vers la langue de chaque jeu de données. Nous observons que l’entraînement sur ces prompts traduits automatiquement améliore les performances sur des prompts rédigés par des humains dans les langues correspondantes. De manière surprenante, nous constatons que les modèles sont capables de généralisation zero-shot à des tâches dans des langues qu’ils n’ont jamais vues intentionnellement. Nous conjecturons que les modèles acquièrent ainsi des capacités de niveau supérieur, à la fois indépendantes des tâches et des langues. En outre, nous introduisons xP3, un ensemble de données composite constitué de données supervisées dans 46 langues, avec des prompts en anglais et des prompts traduits automatiquement. Notre code, nos jeux de données et nos modèles sont disponibles gratuitement à l’adresse https://github.com/bigscience-workshop/xmtf.