HyperAIHyperAI
Back to Headlines

Synthetic data révolutionne l’entraînement des modèles d’IA : BeyondWeb de Datology AI bat les benchmarks avec moins de données

il y a 9 heures

La croissance exponentielle des modèles linguistiques entraîne une pression croissante sur les sources de données d’entraînement, notamment les contenus web de qualité. Face à cette « muraille de données » — un goulot d’étranglement lié à la rareté et à la dégradation de l’information web — Datology AI a lancé BeyondWeb, un cadre innovant qui transforme les documents web existants en données synthétiques hautement densifiées. Contrairement aux méthodes traditionnelles, BeyondWeb ne se contente pas de recopier le web, mais réorganise, reformule et enrichit le contenu pour en améliorer la qualité éducative, la clarté et la diversité stylistique, rendant ainsi l’entraînement des modèles plus efficace. Les résultats montrent des gains significatifs : BeyondWeb améliore l’exactitude de 5,1 points de pourcentage sur des modèles de 8 milliards de paramètres par rapport à Cosmopedia (Hugging Face) et de 2,6 points par rapport au jeu de données Nemotron-CC (Nvidia), selon 14 benchmarks standard en mode 0-shot et 5-shot. En outre, le cadre accélère considérablement l’entraînement — 7,7 fois plus vite que les données web ouvertes, et 2,7 fois plus que Nemotron Synthetic. Un modèle de 3 milliards de paramètres entraîné sur BeyondWeb dépasse même un modèle de 8 milliards entraîné sur Cosmopedia, avec le même budget de tokens. Après seulement 66 milliards de tokens, BeyondWeb atteint une précision moyenne de 64 %, soit 7,7 fois plus que RedPajama et 2,7 fois plus que Nemotron-Synth. Une analyse approfondie révèle que la diversité stylistique est cruciale pour éviter les rendements décroissants. Les méthodes classiques, bien qu’utiles au début, manquent de variété, limitant leur impact à long terme. De plus, les données conversationnelles, essentielles pour les applications réelles des LLM, représentent moins de 2,7 % des contenus web, malgré leur importance. L’ajout de ce type de données améliore les performances, mais les gains se stabilisent rapidement. Surprenant, les petits modèles (1B à 3B paramètres) s’avèrent très efficaces pour générer des données synthétiques de haute qualité. L’amélioration se fait surtout entre 1B et 3B, mais les gains s’atténuent à partir de 8B, suggérant que les organisations à ressources limitées peuvent produire des jeux de données performants sans recourir à des modèles massifs. BeyondWeb a déjà été utilisé pour entraîner le modèle AFM de 4,5 milliards de paramètres d’ArceeAI, via une chaîne de traitement évolutive capable de traiter des trillions de tokens. Malgré ses performances, le cadre n’est pas encore disponible pour la recherche gratuite. D’autres acteurs, comme Microsoft (Phi-4), Nvidia (Nemotron-4 340B) et OpenAI (GPT-5), explorent aussi activement les données synthétiques. Microsoft a utilisé des données « style manuel » et des « jetons pivots » pour améliorer l’apprentissage, tandis qu’OpenAI insiste sur une préparation rigoureuse des données pour favoriser l’apprentissage réel, non seulement combler des lacunes. Le mythe de la « collapsus des modèles » a été réfuté, confirmant que des données synthétiques bien conçues peuvent véritablement propulser l’IA. En résumé, BeyondWeb incarne une avancée stratégique : transformer la qualité, non pas la quantité, des données d’entraînement. Son succès souligne que l’avenir de l’IA repose moins sur l’accumulation de textes web que sur leur réinvention intelligente.

Related Links