HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron-Personas-Brazil:携手打造主权人工智能的联合数据新范式

NVIDIA推出全新开源数据集Nemotron-Personas-Brazil,旨在为巴西本土人工智能发展提供真实、合规且文化贴合的合成数据支持。该数据集包含600万个完全合成的巴西人口角色(persona),基于巴西地理与统计研究所(IBGE)发布的官方人口普查和劳动力数据,确保在年龄、性别、教育、职业、地域分布等方面与真实巴西社会高度一致,同时不包含任何真实个人的信息。 该数据集采用复合AI技术构建,依托NVIDIA的NeMo Data Designer平台,实现了结构化生成、自动验证与迭代优化,确保大规模数据的高质量与统计准确性。每个角色均以自然流畅的巴西葡萄牙语撰写,涵盖文化背景、技能、生活目标、兴趣爱好等维度,真实反映巴西五大区域在地理、职业、人生阶段及社会习俗上的多样性,包括微型企业主、地方工匠、学生、失业者与退休人员等群体。 Nemotron-Personas-Brazil是NVIDIA Nemotron-Personas系列的最新成员,此前已推出美国、日本、印度和新加坡版本。该数据集以CC BY 4.0开源协议发布,支持商业使用,为巴西开发者和研究人员构建“主权AI”系统提供关键基础设施,解决长期以来依赖英语主导数据、缺乏本地化训练资源的问题。 项目由NVIDIA与拉丁美洲AI解决方案公司WideLabs(NVIDIA Inception成员)联合开发,后者在政府与受监管行业AI部署方面拥有丰富经验。数据集设计强调隐私保护,所有信息均为合成生成,无任何个人身份信息,可安全用于模型训练。 该数据集不仅服务于巴西本地AI生态,也欢迎全球开发者用于提升模型在巴西语言与文化场景下的表现。用户可通过Hugging Face直接加载数据,开启本地化AI开发。NVIDIA还邀请社区参与未来数据集的共建,推动全球AI的包容性与多样性发展。

相关链接