HyperAIHyperAI

Nemotron-Pretraining-Dataset-Beispiel-Sampling-Dataset

Datum

vor einem Monat

Größe

79.87 MB

Organisation

NVIDIA

Veröffentlichungs-URL

huggingface.co

Paper-URL

2508.14444

Lizenz

其他

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Nemotron-Pretraining-Dataset-sample ist eine optimierte Sampling-Version des Nemotron-Pretraining-Datasets, das 2025 von NVIDIA veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers lauten:NVIDIA Nemotron Nano 2: Ein genaues und effizientes hybrides Mamba-Transformer-Reasoning-Modell".

Der Datensatz enthält 10 repräsentative Teilmengen, die aus verschiedenen Komponenten des vollständigen SFT- und Vortrainingskorpus ausgewählt wurden. Er umfasst hochwertige Frage-Antwort-Daten, extrahierte Inhalte mit Schwerpunkt auf dem mathematischen Bereich, Code-Metadaten und Anweisungsdaten im SFT-Stil, die sich für die Überprüfung und schnelle Experimente eignen.

Nemotron-Pretraining-Dataset-Beispiel.torrent
Seeding 1Herunterladen 0Abgeschlossen 11Gesamtdownloads 45
  • Nemotron-Pretraining-Dataset-sample/
    • README.md
      1.37 KB
    • README.txt
      2.73 KB
      • data/
        • Nemotron-Pretraining-Dataset-sample.zip
          79.87 MB