CPED 全称 Chinese Personalized and Emotional Dialogue,是第一个大规模的中国个性化和情感对话数据集。数据集由与同理心和个人特征相关的多源知识组成(涵盖了性别、五大个性特征、 13 种情感、 19 个对话行为和 10 个场景等知识)。
数据集包含:
- 133000 多模态上下文话语
- 来自 40 个电视节目的 392 个扬声器的 12000 多个对话
- 3 个字符属性(姓名、性别年龄)标注、五大个性特征标注、 2 种动态情感信息(情感和情感)标注和 DA 标注
- 三项任务:对话中的人格识别(PRC)、对话中的情感识别(ERC)以及个性化和情感对话(PEC)