Command Palette
Search for a command to run...
Nemotron‑Personas-USA 是由 NVIDIA 于 2025 年发布的一个大规模合成用户画像数据集,旨在支持大型语言模型(LLMs)和智能代理系统在对话生成、角色模拟、用户建模和多样化行为分析等任务中的训练与评测。
该数据集共包含约 100 万条虚拟人物记录,总计 600 万个 persona 字段与 16 个情境信息字段,数据覆盖美国全部 50 个州及波多黎各、维京群岛,包含 29,000 个地理邮区(ZCTA)与 15,200 个城市/区域,能够较为完整地反映美国人口在地理与社会结构上的分布。
数据集中共包含约 97 万个唯一人名,并涵盖超过 560 种职业类别,职业分布参考了真实世界职业统计数据,具备较好的社会代表性。每条数据由多维字段构成,包括年龄、性别、教育水平、收入、职业、所在地等结构化人口信息,以及兴趣、价值观、生活方式与个人目标等自然语言 persona 描述,形成结合结构化信息与非结构化文本的复合式人物画像表征。
