CPED 中文对话数据集

日期

2 年前

机构

IEEE

发布地址

github.com

许可协议

其他

下载帮助
特色图像

CPED 全称 Chinese Personalized and Emotional Dialogue,是第一个大规模的中国个性化和情感对话数据集。数据集由与同理心和个人特征相关的多源知识组成(涵盖了性别、五大个性特征、 13 种情感、 19 个对话行为和 10 个场景等知识)。

数据集包含

  • 133000 多模态上下文话语
  • 来自 40 个电视节目的 392 个扬声器的 12000 多个对话
  • 3 个字符属性(姓名、性别年龄)标注、五大个性特征标注、 2 种动态情感信息(情感和情感)标注和 DA 标注
  • 三项任务:对话中的人格识别(PRC)、对话中的情感识别(ERC)以及个性化和情感对话(PEC)