Command Palette
Search for a command to run...
Zitong Yang Aonan Zhang Hong Liu Tatsunori Hashimoto Emmanuel Candès Chong Wang Ruoming Pang

Résumé
Nous introduisons le préentraînement par bootstrap synthétique (Synthetic Bootstrapped Pretraining, SBP), une méthode de préentraînement pour les modèles linguistiques (LM) qui commence par apprendre un modèle des relations entre documents à partir du jeu de données de préentraînement, puis exploite ce modèle pour synthétiser un vaste nouveau corpus destiné à un entraînement conjoint. Alors que le préentraînement classique enseigne aux LM à capturer des corrélations causales entre les tokens au sein d’un même document, il n’est pas conçu pour modéliser efficacement les corrélations interdocuments riches et apprenables, qui pourraient potentiellement améliorer les performances. Nous validons SBP en concevant une configuration d’entraînement équivalente en termes de ressources informatiques, et préentraînons un modèle de 3 milliards de paramètres sur jusqu’à 1 téraoctet de tokens, à partir de zéro. Nous constatons que SBP améliore de manière cohérente une base de référence solide reposant sur la répétition, et atteint une fraction significative de l’amélioration de performance possible avec une borne supérieure idéale (oracle) ayant accès à 20 fois plus de données uniques. Une analyse qualitative révèle que les documents synthétisés vont au-delà de simples reformulations : SBP abstrait d’abord un concept central à partir du matériau initial, puis construit une nouvelle narration autour de ce concept. En plus d’un excellent rendement empirique, SBP admet une interprétation naturelle dans un cadre bayésien : le générateur de synthèse apprend implicitement à extraire les concepts latents communs entre documents liés.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.