Muppet : Représentations massivement multi-tâches avec pré-finetuning

Nous proposons le pré-finetuning, une étape supplémentaire d'apprentissage à grande échelle située entre le pré-entraînement des modèles linguistiques et le finetuning. Le pré-finetuning repose sur un apprentissage multi-tâches massif (environ 50 jeux de données, plus de 4,8 millions d'exemples étiquetés au total) et vise à favoriser l'apprentissage de représentations généralisables à de nombreuses tâches différentes. Nous démontrons que le pré-finetuning améliore de manière cohérente les performances des discriminants pré-entraînés (par exemple RoBERTa) et des modèles de génération (par exemple BART) sur une large gamme de tâches (prédiction de phrases, raisonnement communautaire, compréhension de lecture, etc.), tout en améliorant significativement l'efficacité en échantillons pendant le finetuning. Nous montrons également que l'apprentissage multi-tâches à grande échelle est crucial : le pré-finetuning peut nuire aux performances lorsque peu de tâches sont utilisées, jusqu'à un seuil critique (généralement au-delà de 15), au-delà duquel les performances s'améliorent linéairement avec le nombre de tâches.