Nemotron-Pretraining-Dataset-Beispiel-Sampling-Dataset
Datum
vor einem Monat
Größe
79.87 MB
Veröffentlichungs-URL
Paper-URL
Lizenz
其他
* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Nemotron-Pretraining-Dataset-sample ist eine optimierte Sampling-Version des Nemotron-Pretraining-Datasets, das 2025 von NVIDIA veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers lauten:NVIDIA Nemotron Nano 2: Ein genaues und effizientes hybrides Mamba-Transformer-Reasoning-Modell".
Der Datensatz enthält 10 repräsentative Teilmengen, die aus verschiedenen Komponenten des vollständigen SFT- und Vortrainingskorpus ausgewählt wurden. Er umfasst hochwertige Frage-Antwort-Daten, extrahierte Inhalte mit Schwerpunkt auf dem mathematischen Bereich, Code-Metadaten und Anweisungsdaten im SFT-Stil, die sich für die Überprüfung und schnelle Experimente eignen.
Nemotron-Pretraining-Dataset-Beispiel.torrent
Seeding 1Herunterladen 0Abgeschlossen 11Gesamtdownloads 45