Échelle des modèles de langage affinés par les instructions

L'ajustement fin des modèles de langage sur une collection de jeux de données formulés sous forme d'instructions a été démontré pour améliorer les performances et la généralisation du modèle à des tâches inédites. Dans cet article, nous explorons l'ajustement fin par instructions en mettant particulièrement l'accent sur (1) l'échelle du nombre de tâches, (2) l'échelle de la taille du modèle, et (3) l'ajustement fin sur des données en chaîne de pensée (chain-of-thought). Nous constatons que l'ajustement fin par instructions avec les aspects mentionnés ci-dessus améliore considérablement les performances sur diverses classes de modèles (PaLM, T5, U-PaLM), configurations d'interrogation (zero-shot, few-shot, CoT) et bancs d'essai d'évaluation (MMLU, BBH, TyDiQA, MGSM, génération ouverte). Par exemple, Flan-PaLM 540B ajusté finement sur 1 800 tâches dépasse largement PALM 540B (+9,4 % en moyenne). Flan-PaLM 540B atteint des performances de pointe sur plusieurs bancs d'essai, comme un score de 75,2 % sur MMLU à cinq exemples. Nous rendons également publics les points de contrôle Flan-T5, qui offrent des performances robustes en configuration few-shot même comparées à des modèles beaucoup plus grands, tels que PaLM 62B. En résumé, l'ajustement fin par instructions est une méthode générale pour améliorer les performances et la facilité d'utilisation des modèles de langage pré-entraînés.