HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données De Pré-formation Nemotron-CC-v2

Date

il y a 2 mois

Organisation

NVIDIA

URL de l'article

2508.14444

Licence

Autre

Rejoignez la communauté Discord

Nemotron-CC-v2 est une version de suivi de Nemotron-CC publiée par NVIDIA en 2025. Les résultats de l'article associé sont "NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace".

Cet ensemble de données s'appuie sur le corpus web anglais existant en ajoutant huit instantanés Common Crawl de 2024-2025, en effectuant une déduplication globale et un filtrage anglais. Il utilise également Qwen3-30B-A3B pour synthétiser et reformuler le contenu web, complété par des questions-réponses diversifiées (AQ diversifiée), et traduit en 15 langues afin d'améliorer le raisonnement logique multilingue et la préformation des connaissances générales. Son importance réside dans l'amélioration de l'approche efficace « pages web anglaises de haute qualité → AQ diversifiée synthétisée », en combinant une exploration web actualisée et une expansion multilingue dans une approche systématique. Grâce à une déduplication, un filtrage et une distribution reproductible rigoureux, il facilite l'intégration directe dans divers pipelines de préformation.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp