PsyDTCorpus 是一个由华南理工大学未来技术学院-广东省数字孪生人重点实验室于 2024 年推出的心理咨询师数字孪生数据集。该数据集的核心目标是模拟特定心理咨询师的语言风格和咨询技术,以支持心理咨询师数字孪生大模型 SoulChat2.0 的开发和训练。相关论文成果为「SoulChat: Improving LLMs’ Empathy, Listening, and Comfort Abilities through Fine-tuning with Multi-turn Empathy Conversations」。
PsyDTCorpus 数据集针对特定心理咨询师的真实多轮咨询案例,基于 5k 个单轮咨询样本进行数字孪生数据合成,最终得到 5k 个具有该咨询师语言风格与疗法技术应用方式的高质量心理健康对话数据。其中 4,760 个样本作为训练集,240 个样本被拆分为多个测试样例。数据集总的轮数为:90,365,其中测试集的轮次为:4,311 。
该数据集采用了一个创新的数据生成框架,该框架能够结合真实心理咨询师的语言风格、咨询技术以及来访者的大五人格特质,生成模拟单轮对话的数据。通过这个框架,研究团队能够生成多轮对话数据,这些数据有效表征了特定心理咨询师的语言风格与咨询技术应用方式。在本项目中,生成的多轮对话数据总轮次达到了 90,365 轮,平均每个对话样本包含 18 轮。
PsyDTCorpus 在谈话技术、状态与态度、关系建立、疗法技术 4 个专业维度上进行了人工评估比较,结果显示其在这些方面相较于其他数据集有明显的提升,证明了利用真实心理咨询师的少量咨询案例来构建高质量多轮心理健康对话数据的可行性。
做种 1
下载中 0
已完成 12
总下载 45