HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron-CC-v2-Vortrainingsdatensatz

Discuss on Discord

Date

vor 4 Monaten

Organization

NVIDIA

Paper URL

2508.14444

License

Other

Tags

Nemotron-CC-v2 ist eine Nachfolgeversion von Nemotron-CC, die 2025 von NVIDIA veröffentlicht wurde. Die zugehörigen Papierergebnisse sind „NVIDIA Nemotron Nano 2: Ein genaues und effizientes hybrides Mamba-Transformer-Reasoning-Modell".

Dieser Datensatz baut auf dem bestehenden englischen Webkorpus auf und ergänzt acht Common-Crawl-Snapshots aus den Jahren 2024–2025. Er führt eine globale Deduplizierung und englische Filterung durch. Er verwendet außerdem Qwen3-30B-A3B zur Synthese und Neuformulierung von Webinhalten, ergänzt durch Diverse Question Answering (Diverse QA) und übersetzt sie in 15 Sprachen, um das mehrsprachige logische Denken und das Vortraining von Allgemeinwissen zu verbessern. Seine Bedeutung liegt darin, den effektiven Ansatz „Hochwertige englische Webseiten → synthetisierte Diverse QA“ auf ein neues Niveau zu heben, indem aktualisiertes Web-Crawling und mehrsprachige Erweiterung zu einem systematischen Ansatz kombiniert werden. Durch rigorose Deduplizierung, Filterung und reproduzierbare Verteilung erleichtert er die direkte Integration in verschiedene Vortrainings-Pipelines.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp