HyperAIHyperAI
vor 11 Tagen

Nemotron-CC-Math: Ein hochwertiger Vortrainingsdatensatz für Mathematik mit Skalierung auf 133 Milliarden Token

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro
Nemotron-CC-Math: Ein hochwertiger Vortrainingsdatensatz für Mathematik mit Skalierung auf 133 Milliarden Token
Abstract

Die Vortrainierung großer Sprachmodelle (LLMs) auf hochwertigen, strukturierten Daten wie Mathematik und Code verbessert deren Schlussfolgerungsfähigkeiten erheblich. Bisherige mathematikorientierte Datensätze, die aus Common Crawl abgeleitet wurden, leiden jedoch unter einer verminderten Qualität aufgrund anfälligster Extraktionsheuristiken, verlustbehafteter HTML-zu-Text-Konvertierungen sowie der unzuverlässigen Erhaltung mathematischer Strukturen. In dieser Arbeit stellen wir Nemotron-CC-Math vor – eine großskalige, hochwertige mathematische Korpus, die aus Common Crawl mittels eines neuartigen, domänenunabhängigen Pipelines erstellt wurde, die speziell für eine robuste Extraktion wissenschaftlicher Texte konzipiert ist. Im Gegensatz zu früheren Ansätzen erfasst unsere Pipeline mathematische Inhalte in verschiedenen Formaten (z. B. MathJax, KaTeX, MathML) durch die Nutzung von layoutbewusstem Rendern mit lynx und einer gezielt auf Sprachmodelle basierenden Bereinigungsphase. Dieser Ansatz bewahrt die strukturelle Integrität von Gleichungen und Codeblöcken, entfernt Boilerplate-Texte, standardisiert die Notation in LaTeX-Form und korrigiert Inkonsistenzen. Wir haben ein großes, hochwertiges mathematisches Korpus gesammelt: Nemotron-CC-Math-3+ (133 Milliarden Tokens) und Nemotron-CC-Math-4+ (52 Milliarden Tokens). Besonders hervorzuheben ist, dass Nemotron-CC-Math-4+ nicht nur alle bisherigen offenen mathematischen Datensätze – einschließlich MegaMath, FineMath und OpenWebMath – übertrifft, sondern auch 5,5-mal mehr Tokens enthält als FineMath-4+, das bislang das qualitativ hochwertigste Datenset für die Vortrainierung in Mathematik war. Bei der Vortrainierung eines Nemotron-T-8B-Modells erzielen wir gegenüber starken Baselines zusätzliche Verbesserungen von +4,8 bis +12,6 auf dem MATH-Benchmark und von +4,6 bis +14,3 auf MBPP+, gleichzeitig auch eine Verbesserung der Leistung im allgemeinen Domänenbereich auf MMLU und MMLU-Stem. Wir präsentieren die erste Pipeline, die wissenschaftliche Inhalte – einschließlich Mathematik – zuverlässig aus rauschhaften, web-skaligen Daten extrahieren kann, wodurch messbare Fortschritte in Mathematik, Code und allgemeiner Schlussfolgerung erzielt werden. Damit setzen wir eine neue Benchmark unter den offenen Datensätzen für die Vortrainierung in Mathematik. Um die Open-Source-Entwicklung zu unterstützen, veröffentlichen wir unseren Code und die Datensätze.