HyperAI

Nemotron-Post-Training-Dataset-v2 ist eine von NVIDIA im Jahr 2025 veröffentlichte Version, die auf dem bestehenden Post-Training-Korpus basiert. Dieser Datensatz erweitert SFT- und RL-Daten auf fünf Zielsprachen (Spanisch/Französisch/Deutsch/Italienisch/Japanisch) und deckt Mathematik, Code, MINT (Mathematik, Informatik, Naturwissenschaften und Technik), Dialog und weitere Szenarien ab. Er dient der Verbesserung der Argumentations- und Anweisungsfolgefähigkeiten des Modells und bietet metadatenbasierte Filterfunktionen und typische Teilmengenbeispiele. Dieser Datensatz dient der Veröffentlichungs- und Ausrichtungsforschung der Nemotron-Nano-9B-v2-Reihe und ist eines ihrer öffentlichen Post-Training-Korpora, das es Nutzern erleichtert, Experimente zu reproduzieren und weiter zu verbessern. Die relevanten Ergebnisse der Studie sind „NVIDIA Nemotron Nano 2: Ein genaues und effizientes hybrides Mamba-Transformer-Reasoning-Modell".

Screenbare ProbenverteiltMit Metadaten:

Download filtern: Unterstützt schnelles Filtern und Herunterladen nach Metadaten wie Kategorie/Sprache/Quellmodell
Kategorie und Größe (Wert): Mathematik (239.467); Code (175.000); Stamm (355.000); Chat (627.720)
Mehrsprachige Abdeckung: ja, de, it, es, fr
Quelle: Synthetisiert aus mehreren großen Modellen (wie DeepSeek-R1-0528, Qwen 2.5/3-Serie usw.)
Anmerkungsformat: Einige Beispiele bieten zwei Antworten: „Argumentation an oder aus“; die Argumentationsspur ist in Englisch

Nemotron-Post-Training-Dataset-v2 Post-Training-Datensatz

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Nemotron-Post-Training-Dataset-v2 Post-Training-Datensatz

KI mit KI entwickeln

Hyper Newsletters