HyperAIHyperAI

Command Palette

Search for a command to run...

BeyondWeb : Leçons tirées de l'exploitation de données synthétiques pour l'entraînement préalable à l'échelle du trillion

Résumé

Les avancées récentes dans le préentraînement des grands modèles linguistiques (LLM) ont montré que l’augmentation simple de la quantité de données finit par entraîner des rendements décroissants, aboutissant à un « mur des données ». En réponse, l’utilisation de données synthétiques pour le préentraînement s’est imposée comme un paradigme prometteur pour repousser les limites des performances. Toutefois, les facteurs influençant la qualité des données synthétiques restent mal compris. Dans ce travail, nous introduisons BeyondWeb, un cadre de génération de données synthétiques capable de produire des données de haute qualité pour le préentraînement. BeyondWeb étend considérablement les capacités des jeux de données traditionnels à l’échelle du web, surpassant les meilleurs jeux de données synthétiques actuels, tels que Cosmopedia et le sous-ensemble de haute qualité de Nemotron-CC (Nemotron-Synth), de respectivement jusqu’à 5,1 points de pourcentage (pp) et 2,6 pp en moyenne sur une série de 14 évaluations standardisées. Il permet un entraînement jusqu’à 7,7 fois plus rapide que les données issues du web ouvert, et 2,7 fois plus rapide que Nemotron-Synth. De manière remarquable, un modèle de 3 milliards de paramètres entraîné sur 180 milliards de tokens avec BeyondWeb surpasse un modèle de 8 milliards de paramètres entraîné sur le même budget de tokens sur Cosmopedia. Nous présentons également plusieurs observations clés issues de BeyondWeb concernant les données synthétiques pour le préentraînement : ce qui explique leurs bénéfices, quelles données doivent être reformulées, comment le faire, ainsi que l’impact de la taille et de la famille du modèle sur la qualité des données. Globalement, notre étude démontre qu’il n’existe pas de solution miracle pour générer des données synthétiques de haute qualité destinées au préentraînement. Les meilleurs résultats exigent une optimisation conjointe de nombreux facteurs, une tâche complexe qui requiert à la fois une rigueur scientifique et une expertise pratique. Les approches naïves peuvent produire des améliorations modestes, potentiellement au prix élevé, tandis que des méthodes bien exécutées peuvent conduire à des améliorations transformantes, comme en témoigne BeyondWeb.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
BeyondWeb : Leçons tirées de l'exploitation de données synthétiques pour l'entraînement préalable à l'échelle du trillion | Articles | HyperAI