HyperAIHyperAI
il y a 2 jours

BeyondWeb : Leçons tirées de l'exploitation de données synthétiques pour l'entraînement préalable à l'échelle du trillion

Pratyush Maini, Vineeth Dorna, Parth Doshi, Aldo Carranza, Fan Pan, Jack Urbanek, Paul Burstein, Alex Fang, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Charvi Bannur, Christina Baek, Darren Teh, David Schwab, Haakon Mongstad, Haoli Yin, Josh Wills, Kaleigh Mentzer, Luke Merrick, Ricardo Monti, Rishabh Adiga, Siddharth Joshi, Spandan Das, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt
BeyondWeb : Leçons tirées de l'exploitation de données synthétiques pour l'entraînement préalable à l'échelle du trillion
Résumé

Les avancées récentes dans le préentraînement des grands modèles linguistiques (LLM) ont montré que l’augmentation simple de la quantité de données finit par entraîner des rendements décroissants, aboutissant à un « mur des données ». En réponse, l’utilisation de données synthétiques pour le préentraînement s’est imposée comme un paradigme prometteur pour repousser les limites des performances. Toutefois, les facteurs influençant la qualité des données synthétiques restent mal compris. Dans ce travail, nous introduisons BeyondWeb, un cadre de génération de données synthétiques capable de produire des données de haute qualité pour le préentraînement. BeyondWeb étend considérablement les capacités des jeux de données traditionnels à l’échelle du web, surpassant les meilleurs jeux de données synthétiques actuels, tels que Cosmopedia et le sous-ensemble de haute qualité de Nemotron-CC (Nemotron-Synth), de respectivement jusqu’à 5,1 points de pourcentage (pp) et 2,6 pp en moyenne sur une série de 14 évaluations standardisées. Il permet un entraînement jusqu’à 7,7 fois plus rapide que les données issues du web ouvert, et 2,7 fois plus rapide que Nemotron-Synth. De manière remarquable, un modèle de 3 milliards de paramètres entraîné sur 180 milliards de tokens avec BeyondWeb surpasse un modèle de 8 milliards de paramètres entraîné sur le même budget de tokens sur Cosmopedia. Nous présentons également plusieurs observations clés issues de BeyondWeb concernant les données synthétiques pour le préentraînement : ce qui explique leurs bénéfices, quelles données doivent être reformulées, comment le faire, ainsi que l’impact de la taille et de la famille du modèle sur la qualité des données. Globalement, notre étude démontre qu’il n’existe pas de solution miracle pour générer des données synthétiques de haute qualité destinées au préentraînement. Les meilleurs résultats exigent une optimisation conjointe de nombreux facteurs, une tâche complexe qui requiert à la fois une rigueur scientifique et une expertise pratique. Les approches naïves peuvent produire des améliorations modestes, potentiellement au prix élevé, tandis que des méthodes bien exécutées peuvent conduire à des améliorations transformantes, comme en témoigne BeyondWeb.

BeyondWeb : Leçons tirées de l'exploitation de données synthétiques pour l'entraînement préalable à l'échelle du trillion | Articles de recherche récents | HyperAI