Persona Hub 网络数据中自动整理的 10 亿个不同角色数据集

日期

6 个月前

大小

56.03 MB

机构

Tencent AI Lab

发布地址

huggingface.co

特色图像

数据集简介

该数据集是腾讯西雅图人工智能实验室于 2024 年推出的一个从网络数据中自动整理的 10 亿个不同角色的集合。这 10 亿角色(约占世界总人口的 13%)作为世界知识的分布式载体,可以利用 LLM 中封装的几乎所有视角,从而促进为各种场景大规模创建多样化的合成数据。通过展示 PERSONA HUB 在大规模合成高质量数学和逻辑推理问题、指令(即用户提示)、知识丰富的文本、游戏 NPC 和工具(功能)方面的用例,研究团队证明了角色驱动的数据合成是多功能、可扩展、灵活且易于使用的,有可能推动合成数据创建和实践应用的范式转变,这可能会对 LLM 的研究和开发产生深远影响。

相关论文为「Scaling Synthetic Data Creation with 1,000,000,000 Personas

数据集背景

腾讯西雅图人工智能实验室推出了一种新颖的、由角色驱动的数据合成方法,该方法利用大语言模型(LLM)中的多种视角来创建多样化的合成数据。研究人员推出了一个名为 “Persona Hub” 的系统,它自动从网络数据中整理出 10 亿个不同的角色(约占世界总人口的 13%)。这些角色作为世界知识的分布式载体,能够触及 LLM 中包含的几乎所有视角,从而为各种场景大规模地促进多样化合成数据的创造。这项技术报告还讨论了使用 Persona Hub 可能带来的广泛影响和伦理问题,例如数据安全性、对现有 LLM 领先地位的威胁、以及在虚拟世界中模拟现实社会的可能性。

PersonaHub.torrent

做种 1

下载中 0

已完成 38

总下载 54

  • PersonaHub/
    • README.md
      2.42 KB
    • README.txt
      4.83 KB
      • data/
        • personahub.zip
          56.03 MB