UL2 : Unifiant les paradigmes d'apprentissage des langues

Les modèles pré-entraînés existants sont généralement orientés vers une classe particulière de problèmes. À ce jour, il n'y a toujours pas de consensus sur l'architecture et la configuration de pré-entraînement appropriées. Cet article présente un cadre unifié pour les modèles pré-entraînés qui sont universellement efficaces sur divers ensembles de données et configurations. Nous commençons par dissocier les archétypes architecturaux des objectifs de pré-entraînement — deux concepts souvent confondus. Ensuite, nous proposons une perspective généralisée et unifiée pour l'auto-supervision en traitement du langage naturel (NLP) et montrons comment différents objectifs de pré-entraînement peuvent être interprétés les uns à travers les autres, ainsi que comment l'interpolation entre ces objectifs peut être efficace. Nous introduisons ensuite le Mélange-de-Dénombreurs (Mixture-of-Denoisers, MoD), un objectif de pré-entraînement qui combine divers paradigmes de pré-entraînement. De plus, nous présentons le concept de basculement de mode, où l'affinage en aval est associé à des schémas spécifiques de pré-entraînement. Nous menons des expériences ablatives approfondies pour comparer plusieurs objectifs de pré-entraînement et constatons que notre méthode repousse la frontière Pareto en surpassant les modèles T5 et GPT-like dans diverses configurations. En échelonnant notre modèle jusqu'à 20 milliards de paramètres, nous obtenons des performances d'état de l'art (SOTA) sur 50 tâches bien établies en NLP basées sur l'affinage supervisé. Notre modèle obtient également des résultats solides en apprentissage contextuel, surpassant le GPT-3 à 175 milliards de paramètres sur SuperGLUE sans supervision et triplant les performances du T5-XXL sur la résumé avec une seule instance d'apprentissage. Sur MMLU sans supervision, UL2 20B dépasse les modèles T0 et T5. UL2 20B fonctionne également bien avec des instructions chaînées et des raisonnements, ce qui en fait un choix attrayant pour la recherche sur le raisonnement à petite ou moyenne échelle (jusqu'à 20 milliards de paramètres). Enfin, nous appliquons l'affinage d'instructions FLAN au modèle UL2 20B, obtenant des scores MMLU et Big-Bench comparables à ceux du FLAN-PaLM 62B. Nous mettons à disposition des points de contrôle T5X basés sur Flax pour UL2 20B et Flan-UL2 20B.