Command Palette
Search for a command to run...
Nemotron-Post-Training-Dataset-v2 Post-Training-Datensatz
Datum
Größe
Paper-URL
Lizenz
CC BY 4.0
Nemotron-Post-Training-Dataset-v2 ist eine von NVIDIA im Jahr 2025 veröffentlichte Version, die auf dem bestehenden Post-Training-Korpus basiert. Dieser Datensatz erweitert SFT- und RL-Daten auf fünf Zielsprachen (Spanisch/Französisch/Deutsch/Italienisch/Japanisch) und deckt Mathematik, Code, MINT (Mathematik, Informatik, Naturwissenschaften und Technik), Dialog und weitere Szenarien ab. Er dient der Verbesserung der Argumentations- und Anweisungsfolgefähigkeiten des Modells und bietet metadatenbasierte Filterfunktionen und typische Teilmengenbeispiele. Dieser Datensatz dient der Veröffentlichungs- und Ausrichtungsforschung der Nemotron-Nano-9B-v2-Reihe und ist eines ihrer öffentlichen Post-Training-Korpora, das es Nutzern erleichtert, Experimente zu reproduzieren und weiter zu verbessern. Die relevanten Ergebnisse der Studie sind „NVIDIA Nemotron Nano 2: Ein genaues und effizientes hybrides Mamba-Transformer-Reasoning-Modell".
Screenbare ProbenverteiltMit Metadaten:
- Download filtern: Unterstützt schnelles Filtern und Herunterladen nach Metadaten wie Kategorie/Sprache/Quellmodell
- Kategorie und Größe (Wert): Mathematik (239.467); Code (175.000); Stamm (355.000); Chat (627.720)
- Mehrsprachige Abdeckung: ja, de, it, es, fr
- Quelle: Synthetisiert aus mehreren großen Modellen (wie DeepSeek-R1-0528, Qwen 2.5/3-Serie usw.)
- Anmerkungsformat: Einige Beispiele bieten zwei Antworten: „Argumentation an oder aus“; die Argumentationsspur ist in Englisch
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.