HyperAI超神经

Nemotron-Personas 人物角色数据集

日期

12 days ago

机构

NVIDIA(英伟达)

发布地址

huggingface.co

下载帮助

Nemotron-Personas 是由 NVIDIA 于 2025 年发布的一个人物角色数据集,其中包含基于现实世界人口统计、地理分布和性格特征的人工合成人物角色,旨在捕捉人口的多样性和丰富性。它是同类数据集中首个与姓名、性别、年龄、背景、婚姻状况、教育程度、职业和居住地等属性相关的统计数据集。

数据集包括:

  • 10 万条记录,包含 22 个字段:6 个人物角色字段和 16 个上下文字段
  • 约 5400 万 tokens,其中约 2360 万为人物角色相关
  • 覆盖人口统计学、地理分布和人格特质等多个维度
  • 超过 560 种不同的职业类型,均基于真实世界的职业分布数据