ChatHaruhi 是一个包含 32 个中文/英文电视/动漫角色和超过 54k 模拟对话的数据集。
大型语言模型构建的角色扮演聊天机器人引起广泛关注,然而为了模仿特定虚构角色,需要更先进的技术。研究人员提出了一种算法是通过改进的提示和从脚本中提取的字符的记忆来控制语言模型。通过收集电影、小说、剧本的语料,并进行结构化的抽取,研究人员收集了超过 23000 条以上的对话信息。这些对话数据可以用来训练和检验角色扮演的语言模型。同时,使用研究人员提出的算法并借助 GPT3 和 GPT4,研究人员为这些角色额外模拟生成了超过 27000 条以上的对话。
做种 1
下载中 0
已完成 106
总下载 542