HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron-CC-Math Mathematik-Vortrainingsdatensatz

Datum

vor 2 Monaten

Organisation

Boston Universität
NVIDIA

Paper-URL

2508.15096

Lizenz

Andere

Treten Sie der Discord-Community bei

Nemotron-CC-Math ist ein hochwertiger, groß angelegter Vortrainingsdatensatz mit Schwerpunkt auf Mathematik, der 2025 von NVIDIA und der Boston University veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers sind „Nemotron-CC-Math: Ein hochwertiger mathematischer Vortrainingsdatensatz im Umfang von 133 Milliarden Token“ zielt darauf ab, hochwertige mathematische und Code-Inhalte zu bewahren und anzuzeigen und so die nächste Welle intelligenter, global einsetzbarer Sprachmodelle voranzutreiben.

Dieser Datensatz mit 133 Milliarden Token wurde aus Common Crawl mithilfe einer Extraktions- und Normalisierungspipeline auf Basis von NVIDIA Lynx und einem leichtgewichtigen LLM erstellt. Unter Beibehaltung der Struktur von Gleichungen und Code wird der mathematische Inhalt in ein editierbares LaTeX-Format standardisiert. Dies stellt die erste zuverlässige Abdeckung verschiedener (einschließlich Long-Tail-) mathematischer Formate im Web dar; seine Vorteile wurden in mehreren Benchmarks bestätigt.

Prozess der Datensatzerstellung

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp