Evol-character 角色设定和对话数据集

日期

7 个月前

大小

11.48 MB

发布地址

huggingface.co

本数据集由 GPT3.5 和 GPT4 生成组成,为确保数据的合理使用,目前只公开了部分数据,公开数据由三份文件组成,每份文件包含 200 个角色的设定以及对话。

数据结构

  • evol-character-gpt3.5.json
  • evol-character-male-gpt3.5.json
  • evol-character-gpt4.json

细节如下:

  1. evol-character-gpt3.5.json: 这个数据集包括 200 个不同的角色。每个角色的数据分为两部分:instruction 和 dialog 。 Instruction 部分描述了角色的性格、经历等特征,而 dialog 部分则包含了 10 组对话(但有些角色可能因后期处理而少于 10 组)。
  2. evol-character-male-gpt3.5.json: 也包含 200 个角色,其数据结构与 evol-character-gpt3.5.json 相同。
  3. evol-character-gpt4.json: 同样含有 200 个角色,相比于 gpt3.5 version 数据更加详细和精细。每个角色的数据分为 setting 和 iqa 两部分。 Setting 部分详细描述了角色的性格、经历等特点,而 iqa 部分则包含了与该角色对话的人物的性格设定,以及他们之间的多轮对话。每个角色的数据中涵盖了三个相关人物及其与该角色之间的对话。

优势

  • 精细化的角色设定数据:该数据集弥补了现有开源 Role-playing Instruction 数据中常见的角色设定不足问题。从角色身份、语言风格、背景故事等多个维度提供了详尽的信息。特别是在 GPT-4 版本中,该数据集还增加了对话者身份的设定,使数据更为完整和丰富。
  • 多样性的角色性格:本数据集涵盖尽可能广泛的二次元角色性格,保证了低重复性和高丰富度。
  • 生动的语言和动作描述:该数据集不仅包含角色间的对话,还添加了角色的动作描述,使得对话更加生动和真实,将为用户提供更丰富的角色扮演体验。
  • 通用角色扮演数据生成框架:该数据集提供了一个通用的角色扮演数据生成框架,充分释放 OpenAI API 的角色扮演能力。该框架生成的数据将用于微调和 RAG 。目前,该框架代码正在进行测试和优化,预计将在不久的将来公开。

Evol-character.torrent

做种 2

下载中 0

已完成 73

总下载 149

  • Evol-character/
    • README.md
      2.88 KB
    • README.txt
      5.77 KB
      • data/
        • E-c.zip
          11.48 MB