CPED: Ein groß angelegtes chinesisches Datensatz für personalisierte und emotionale Dialoge in der KonversationskI

Die menschliche Sprachäußerung basiert auf der subjektiven Interpretation einer Situation anstelle der objektiven Wahrheitsbedingungen, was bedeutet, dass die Persönlichkeiten und Emotionen der Sprechenden nach kognitiver Verarbeitung einen wichtigen Einfluss auf das Gespräch haben. Die meisten bestehenden Datensätze für konversationsbasierte KI ignorieren jedoch die menschlichen Persönlichkeiten und Emotionen oder berücksichtigen nur Teile davon. Obwohl groß angelegte vortrainierte Sprachmodelle weit verbreitet sind, ist es für Dialogsysteme schwierig, die Persönlichkeiten und Emotionen der Sprechenden zu verstehen. Um sowohl Persönlichkeiten als auch Emotionen im Prozess der Konversationsgenerierung zu berücksichtigen, schlagen wir CPED vor, einen umfangreichen chinesischen Datensatz für personalisierte und emotionale Dialoge, der mehrquelliges Wissen bezüglich Empathie und persönlichen Charakteristika umfasst. Dieses Wissen umfasst Geschlecht, die Fünf-Faktoren-Modell-Persönlichkeitseigenschaften (Big Five), 13 Emotionen, 19 Dialogakte und 10 Szenarien. CPED enthält über 12.000 Dialoge von 392 Sprechenden aus 40 Fernsehsendungen. Wir veröffentlichen den textuellen Datensatz mit audiovisuellen Merkmalen gemäß den Urheberrechtsbestimmungen, Datenschutzfragen und den Nutzungsbedingungen der Video-Plattformen. Wir geben eine detaillierte Beschreibung des Aufbauvorgangs von CPED und stellen drei Aufgaben für konversationsbasierte KI vor: Persönlichkeitserkennung, Emotionserkennung in Gesprächen sowie generierungsfähige personalisierte und emotionale Konversationen. Schließlich stellen wir Baseline-Systeme für diese Aufgaben bereit und betrachten die Funktion von Sprechernpersönlichkeiten und -emotionen im Gespräch. Unser Ziel ist es, einen Datensatz vorzuschlagen, der von der NLP-Gemeinschaft als neuer offener Referenzstandard für Forschung in konversationsbasierter KI weit verbreitet wird. Der vollständige Datensatz ist unter https://github.com/scutcyr/CPED verfügbar.