HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron-CC-v2-Vortrainingsdatensatz

Datum

vor 2 Monaten

Organisation

NVIDIA

Paper-URL

2508.14444

Lizenz

Andere

Treten Sie der Discord-Community bei

Nemotron-CC-v2 ist eine Nachfolgeversion von Nemotron-CC, die 2025 von NVIDIA veröffentlicht wurde. Die zugehörigen Papierergebnisse sind „NVIDIA Nemotron Nano 2: Ein genaues und effizientes hybrides Mamba-Transformer-Reasoning-Modell".

Dieser Datensatz baut auf dem bestehenden englischen Webkorpus auf und ergänzt acht Common-Crawl-Snapshots aus den Jahren 2024–2025. Er führt eine globale Deduplizierung und englische Filterung durch. Er verwendet außerdem Qwen3-30B-A3B zur Synthese und Neuformulierung von Webinhalten, ergänzt durch Diverse Question Answering (Diverse QA) und übersetzt sie in 15 Sprachen, um das mehrsprachige logische Denken und das Vortraining von Allgemeinwissen zu verbessern. Seine Bedeutung liegt darin, den effektiven Ansatz „Hochwertige englische Webseiten → synthetisierte Diverse QA“ auf ein neues Niveau zu heben, indem aktualisiertes Web-Crawling und mehrsprachige Erweiterung zu einem systematischen Ansatz kombiniert werden. Durch rigorose Deduplizierung, Filterung und reproduzierbare Verteilung erleichtert er die direkte Integration in verschiedene Vortrainings-Pipelines.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp