Nemotron-CC-Math : un jeu de données pré-entraînement de haute qualité pour les mathématiques à l’échelle de 133 milliards de tokens

Pré-entraîner de grands modèles linguistiques (LLM) sur des données structurées de haute qualité, telles que les mathématiques et le code informatique, améliore de manière significative leurs capacités de raisonnement. Toutefois, les jeux de données axés sur les mathématiques actuellement disponibles, extraits à partir de Common Crawl, souffrent d’une dégradation de qualité due à des heuristiques d’extraction fragiles, à une conversion perte de données du HTML vers le texte, ainsi qu’à une incapacité à préserver de manière fiable la structure mathématique. Dans ce travail, nous introduisons Nemotron-CC-Math, un corpus mathématique à grande échelle et de haute qualité, construit à partir de Common Crawl grâce à une nouvelle pipeline, agnostique au domaine, spécifiquement conçue pour une extraction robuste de texte scientifique. Contrairement aux approches antérieures, notre pipeline permet de récupérer les expressions mathématiques dans divers formats (par exemple MathJax, KaTeX, MathML) en exploitant un rendu sensible à la mise en page via lynx, suivi d’une étape de nettoyage ciblée basée sur un modèle linguistique à grande échelle (LLM). Cette approche préserve l’intégrité structurelle des équations et des blocs de code, tout en éliminant le contenu redondant, en standardisant la notation sous forme de représentation LaTeX, et en corrigeant les incohérences. Nous avons collecté un corpus mathématique de grande taille et de haute qualité, nommé Nemotron-CC-Math-3+ (133 milliards de tokens) et Nemotron-CC-Math-4+ (52 milliards de tokens). Notamment, Nemotron-CC-Math-4+ dépasse tous les jeux de données mathématiques ouverts antérieurs — y compris MegaMath, FineMath et OpenWebMath — et contient 5,5 fois plus de tokens que FineMath-4+, qui était jusqu’alors le meilleur jeu de données ouvert pour l’entraînement préalable en mathématiques. Lorsqu’il est utilisé pour pré-entraîner un modèle Nemotron-T de 8 milliards de paramètres, notre corpus permet d’obtenir des gains de +4,8 à +12,6 sur MATH, et de +4,6 à +14,3 sur MBPP+, par rapport à des modèles de référence performants, tout en améliorant également les performances dans des domaines généraux sur MMLU et MMLU-Stem. Nous présentons la première pipeline capable d’extraire de manière fiable du contenu scientifique — y compris des mathématiques — à partir de données web à grande échelle bruitées, entraînant des gains mesurables en mathématiques, en programmation et en raisonnement général, et établissant un nouveau record de performance parmi les corpus ouverts d’entraînement préalable en mathématiques. Afin de soutenir les initiatives open source, nous mettons à disposition notre code ainsi que nos jeux de données.