CPED は、中国の個人化された感情的な対話の正式名であり、中国初の大規模な個人化された感情的な対話データセットです。データセットは、共感と個人の特性に関連するマルチソースの知識で構成されています (性別、5 つの性格特性、13 の感情、19 の会話行動、10 のシナリオなどの知識をカバーします)。
データセットには以下が含まれます:
- 133,000 のマルチモーダルな文脈上の発話
- 40 のテレビ番組の 392 人の講演者による 12,000 を超える対話
- 3つのキャラクター属性(名前、性別、年齢)アノテーション、5つの性格特性アノテーション、2種類の動的感情情報(喜怒哀楽)アノテーション、DAアノテーション
- 3 つのタスク: 会話中の性格認識 (PRC)、会話中の感情認識 (ERC)、およびパーソナライズされた感情的な会話 (PEC)