HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données post-formation Nemotron-Post-Training-Dataset-v2 Ensemble De Données post-formation

Date

il y a 4 mois

Size

36.78 GB

Organization

NVIDIA

Paper URL

2508.14444

License

CC BY 4.0

Le jeu de données Nemotron-Post-Training-v2 est une version lancée par NVIDIA en 2025, basée sur le corpus post-entraînement existant. Ce jeu de données étend les données SFT et RL à cinq langues cibles (espagnol, français, allemand, italien et japonais), couvrant les mathématiques, le code, les STEM (sciences, technologie, ingénierie et mathématiques), le dialogue et d'autres scénarios. Il permet d'améliorer les capacités de raisonnement et de suivi des instructions du modèle. Il fournit également des fonctions de filtrage basées sur les métadonnées et des exemples de sous-ensembles typiques. Ce jeu de données sert à la recherche sur la diffusion et l'alignement de la série Nemotron-Nano-9B-v2 et constitue l'un de ses corpus post-entraînement publics, facilitant ainsi la reproduction et l'amélioration des expériences. Les résultats de l'article sont les suivants :NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace".

Échantillons criblablesdistribuéAvec des métadonnées:

  • Téléchargement de filtre : prend en charge le filtrage et le téléchargement rapides par métadonnées telles que la catégorie/la langue/le modèle source
  • Catégorie et taille (valeur) : math (239 467) ; code (175 000) ; stem (355 000) ; chat (627 720)
  • Couverture multilingue : ja, de, it, es, fr
  • Source : Synthétisé à partir de plusieurs grands modèles (tels que DeepSeek-R1-0528, série Qwen 2.5/3, etc.)
  • Format d'annotation : Certains échantillons fournissent deux réponses : « raisonnement activé ou désactivé » ; la trace du raisonnement est en anglais

Nemotron-Post-Training-Dataset-v2.torrent
Seeding 1Downloading 0Completed 31Total Downloads 117
  • Nemotron-Post-Training-Dataset-v2/
    • README.md
      1.94 KB
    • README.txt
      3.88 KB
      • data/
        • Nemotron-Post-Training-Dataset-v2.zip
          36.78 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp