2ヶ月前

CPED: コンバーショナルAI用の大規模な中国語パーソナライズドおよび感情対話データセット

Yirong Chen; Weiquan Fan; Xiaofen Xing; Jianxin Pang; Minlie Huang; Wenjing Han; Qianfeng Tie; Xiangmin Xu
CPED: コンバーショナルAI用の大規模な中国語パーソナライズドおよび感情対話データセット
要約

人間の言語表現は、状況の主観的な解釈に基づいており、客観的な真実条件ではなく、話者の性格や感情が認知処理後にも重要な影響を与えることを意味します。しかし、既存の大半の対話AI用データセットでは、人間の性格や感情が無視されたり、部分的にしか考慮されていません。大規模な事前学習言語モデルが広く使用されているにもかかわらず、対話システムが話者の性格や感情を理解することは困難です。そこで、対話生成プロセスにおいて性格と感情の両方を考慮するため、CPED(Chinese Personalized and Emotional Dialogue dataset)という大規模な中国語のパーソナライズされた感情対話データセットを提案します。このデータセットには共感と個人特性に関連する多様な知識が含まれており、性別、Big Five人格特性(Big Five personality traits)、13種類の感情、19種類の対話行為、10つのシーンをカバーしています。CPEDには40のテレビ番組から392人の話者による12,000以上の対話が含まれています。著作権の主張、プライバシー問題、ビデオプラットフォームの利用規約に従って、テキストデータセットに音声特徴量とビデオ特徴量を提供します。CPEDの構築プロセスについて詳細な説明を行い、対話AI向けに性格認識、会話中の感情認識およびパーソナライズされた感情対話生成という3つのタスクを紹介します。最後に、これらのタスクに対するベースラインシステムを提供し、会話を通じて話者の性格や感情が果たす役割について検討します。我々の目的は、NLPコミュニティにおいて広く採用される新しいオープンベンチマークとしてCPEDデータセットを提案することです。完全なデータセットはhttps://github.com/scutcyr/CPEDで入手可能です。

CPED: コンバーショナルAI用の大規模な中国語パーソナライズドおよび感情対話データセット | 最新論文 | HyperAI超神経