HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA 如何构建 AI 开放数据

为突破高质量数据匮乏的瓶颈,英伟达推行“开放数据”战略,旨在通过共享数据集加速可信人工智能系统与智能体的发展。长期以来,数据收集、标注与验证消耗巨大且信息不透明,英伟达通过发布授权开放的 dataset、训练配方及评估框架,显著降低了开发门槛。目前,英伟达已在 Hugging Face 和 GitHub 上分享了超过 2PB 的 AI 就绪数据,涵盖 180 多个数据集和 650 多个开源模型。 其开放数据集覆盖多个关键领域。在具身智能方面,物理 AI 集合包含 50 万条机器人轨迹及多传感器自动驾驶数据,被 Runway 等公司用于构建世界模型。为支持主权人工智能,Nemotron 人像数据集利用合成技术生成跨文化、跨语言的大规模人口数据,帮助 CrowdStrike 等机构将翻译准确率提升一倍以上。在生物制药领域,La Proteina 提供了全合成原子级蛋白质结构,助力新药研发。此外,SPEED-Bench 等基准测试工具也同步开放,统一了模型性能评估标准。 针对大语言模型训练,英伟达发布了 Nemotron 专用数据集。预训练数据从通用网络语料转向高信号密度的数学、代码及 STEM 知识,增强模型推理能力;后训练数据则聚焦多语言多样性与复杂指令遵循,支持如 ServiceNow 和 SmolLM3 等合作伙伴模型的优化。英伟达采用“极端协同设计”模式,联合学术界与产业界共同打磨数据,并通过 ViDoRe 等联盟制定开放基准。英伟达鼓励开发者在其“开放厨房”中利用这些公开资源进行创新,共同构建下一代值得信赖的 AI 系统基础。

相关链接

NVIDIA 如何构建 AI 开放数据 | 热门资讯 | HyperAI超神经