CPED: 대규모 중국어 개인화 및 감정 대화 데이터셋 for 대화형 AI

인간의 언어 표현은 상황에 대한 주관적인 해석을 기반으로 하며, 이는 화자의 성격과 감정이 인지 처리 후 대화에 중요한 영향을 미친다는 것을 의미합니다. 그러나 대부분의 기존 대화형 AI 데이터셋은 인간의 성격과 감정을 무시하거나 부분적으로만 고려하고 있습니다. 대규모 사전 학습 언어 모델이 널리 사용되고 있지만, 대화 시스템이 화자의 성격과 감정을 이해하는 것은 여전히 어려운 문제입니다. 이러한 문제를 해결하기 위해, 우리는 중국어 개인화 및 감성 대화 데이터셋인 CPED를 제안합니다. CPED는 공감과 개인적 특성을 포함한 다중 출처 지식으로 구성되어 있으며, 이 지식은 성별, 빅 파이브 성격 특성, 13가지 감정, 19가지 대화 행위 및 10가지 장면을 포함합니다. CPED는 40개의 TV 프로그램에서 392명의 화자가 참여한 12,000여 개의 대화를 포함하고 있습니다. 저작권 주장, 개인정보 보호 문제, 비디오 플랫폼의 서비스 약관에 따라 텍스트 데이터셋뿐만 아니라 오디오 특징과 비디오 특징도 제공됩니다. 우리는 CPED 구축 과정에 대한 자세한 설명을 제공하며, 대화형 AI를 위한 세 가지 작업(성격 인식, 대화 중 감성 인식, 개인화 및 감성 대화 생성)을 소개합니다. 마지막으로, 이러한 작업들을 위한 베이스라인 시스템을 제공하고 화자의 성격과 감정이 대화에 미치는 역할을 고려합니다. 우리의 목표는 NLP 커뮤니티에서 널리 채택될 수 있는 새로운 오픈 벤치마크로 CPED 데이터셋을 제안하는 것입니다. 전체 데이터셋은 https://github.com/scutcyr/CPED에서 이용 가능합니다.