Nemotron-CC-Math Mathematik-Vortrainingsdatensatz
Datum
Veröffentlichungs-URL
Lizenz
其他
Kategorien
Nemotron-CC-Math ist ein hochwertiger, groß angelegter Vortrainingsdatensatz mit Schwerpunkt auf Mathematik, der 2025 von NVIDIA und der Boston University veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers sind „Nemotron-CC-Math: Ein hochwertiger mathematischer Vortrainingsdatensatz im Umfang von 133 Milliarden Token“ zielt darauf ab, hochwertige mathematische und Code-Inhalte zu bewahren und anzuzeigen und so die nächste Welle intelligenter, global einsetzbarer Sprachmodelle voranzutreiben.
Dieser Datensatz mit 133 Milliarden Token wurde aus Common Crawl mithilfe einer Extraktions- und Normalisierungspipeline auf Basis von NVIDIA Lynx und einem leichtgewichtigen LLM erstellt. Unter Beibehaltung der Struktur von Gleichungen und Code wird der mathematische Inhalt in ein editierbares LaTeX-Format standardisiert. Dies stellt die erste zuverlässige Abdeckung verschiedener (einschließlich Long-Tail-) mathematischer Formate im Web dar; seine Vorteile wurden in mehreren Benchmarks bestätigt.
