CPED : Un grand ensemble de données de dialogue personnalisé et émotionnel chinois pour l'IA conversationnelle

L'expression linguistique humaine est basée sur l'interprétation subjective de la situation plutôt que sur les conditions vérités objectives, ce qui signifie que les personnalités et les émotions des locuteurs après traitement cognitif ont une influence importante sur la conversation. Cependant, la plupart des jeux de données existants pour l'intelligence artificielle conversationnelle ignorent les personnalités et les émotions humaines, ou n'en considèrent qu'une partie. Bien que les grands modèles de langage pré-entraînés soient largement utilisés, il est difficile pour les systèmes de dialogue de comprendre les personnalités et les émotions des locuteurs. Afin de prendre en compte à la fois les personnalités et les émotions dans le processus de génération de conversations, nous proposons CPED (Chinese Personalized and Emotional Dialogue dataset), un grand jeu de données chinois de dialogue personnalisé et émotionnel, composé de connaissances multidimensionnelles liées à l'empathie et aux caractéristiques personnelles. Ces connaissances couvrent le genre, les cinq grands traits de personnalité, 13 émotions, 19 actes de parole et 10 scènes. CPED contient plus de 12 000 dialogues impliquant 392 locuteurs provenant de 40 émissions télévisées. Nous mettons à disposition le jeu de données textuel avec des caractéristiques audio et vidéo conformément aux revendications d'éditions sous licence, aux questions de confidentialité et aux conditions d'utilisation des plateformes vidéo. Nous fournissons une description détaillée du processus de construction du CPED et présentons trois tâches pour l'intelligence artificielle conversationnelle : reconnaissance des personnalités, reconnaissance des émotions dans les conversations ainsi que génération de conversations personnalisées et émotionnelles. Enfin, nous fournissons des systèmes baselines pour ces tâches et examinons le rôle des personnalités et des émotions des locuteurs dans la conversation. Notre objectif est d'offrir un jeu de données qui sera largement adopté par la communauté TALN (Traitement Automatique du Langage Naturel) comme nouveau standard ouvert pour la recherche en intelligence artificielle conversationnelle. L'intégralité du jeu de données est disponible sur https://github.com/scutcyr/CPED.