HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données post-formation Nemotron-Post-Training-Dataset-v2 Ensemble De Données post-formation

Date

il y a 2 mois

Taille

36.78 GB

Organisation

NVIDIA

URL de l'article

2508.14444

Licence

CC BY 4.0

Le jeu de données Nemotron-Post-Training-v2 est une version lancée par NVIDIA en 2025, basée sur le corpus post-entraînement existant. Ce jeu de données étend les données SFT et RL à cinq langues cibles (espagnol, français, allemand, italien et japonais), couvrant les mathématiques, le code, les STEM (sciences, technologie, ingénierie et mathématiques), le dialogue et d'autres scénarios. Il permet d'améliorer les capacités de raisonnement et de suivi des instructions du modèle. Il fournit également des fonctions de filtrage basées sur les métadonnées et des exemples de sous-ensembles typiques. Ce jeu de données sert à la recherche sur la diffusion et l'alignement de la série Nemotron-Nano-9B-v2 et constitue l'un de ses corpus post-entraînement publics, facilitant ainsi la reproduction et l'amélioration des expériences. Les résultats de l'article sont les suivants :NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace".

Échantillons criblablesdistribuéAvec des métadonnées:

  • Téléchargement de filtre : prend en charge le filtrage et le téléchargement rapides par métadonnées telles que la catégorie/la langue/le modèle source
  • Catégorie et taille (valeur) : math (239 467) ; code (175 000) ; stem (355 000) ; chat (627 720)
  • Couverture multilingue : ja, de, it, es, fr
  • Source : Synthétisé à partir de plusieurs grands modèles (tels que DeepSeek-R1-0528, série Qwen 2.5/3, etc.)
  • Format d'annotation : Certains échantillons fournissent deux réponses : « raisonnement activé ou désactivé » ; la trace du raisonnement est en anglais

Nemotron-Post-Training-Dataset-v2.torrent
Partage 1Téléchargement 0Terminés 25Téléchargements totaux 75
  • Nemotron-Post-Training-Dataset-v2/
    • README.md
      1.94 KB
    • README.txt
      3.88 KB
      • data/
        • Nemotron-Post-Training-Dataset-v2.zip
          36.78 GB

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp