HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron-CC-v2 预训练数据集

Discuss on Discord

Date

4 个月前

Organization

NVIDIA(英伟达)

Paper URL

2508.14444

License

Other

Tags

Nemotron-CC-v2 是由英伟达于 2025 年发布的基于 Nemotron-CC 的后续版本,相关论文成果为「NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model」。

该数据集在原有英文网页语料基础上,新增了 2024–2025 年的 8 个 Common Crawl 快照,并进行全局去重与英文过滤;同时使用 Qwen3-30B-A3B 对网页内容进行合成重述,并补充多样化问答(Diverse QA),进一步翻译到 15 种语言,用于强化多语言逻辑推理与通用知识预训练。其意义在于将「高质量英文网页 → 合成多样化问答」的有效做法,结合更新的网页抓取与多语言扩展系统化推到新阶段,并通过严格去重、过滤与可复现的发布,便于直接集成到各类预训练管线。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供