HyperAIHyperAI
منذ 2 أشهر

CPED: مجموعة بيانات حوارية شخصية وعاطفية صينية كبيرة لأجل الذكاء الاصطناعي المحادثي

Yirong Chen; Weiquan Fan; Xiaofen Xing; Jianxin Pang; Minlie Huang; Wenjing Han; Qianfeng Tie; Xiangmin Xu
CPED: مجموعة بيانات حوارية شخصية وعاطفية صينية كبيرة لأجل الذكاء الاصطناعي المحادثي
الملخص

التعبير عن اللغة البشرية يعتمد على تفسير الشخصي للحالة بدلاً من الشروط الموضوعية للحقيقة، مما يعني أن شخصيات المتحدثين وعواطفهم بعد المعالجة المعرفية لها تأثير مهم على المحادثة. ومع ذلك، فإن معظم قواعد البيانات الحالية لذكاء المحادثة تتجاهل شخصيات الإنسان والعواطف، أو تعتبر جزءًا منها فقط. رغم استخدام النماذج اللغوية المدربة مسبقًا على نطاق واسع، إلا أن أنظمة الحوار تجد صعوبة في فهم شخصيات المتحدثين وعواطفهم. من أجل الأخذ بعين الاعتبار كل من الشخصية والعاطفة في عملية إنشاء المحادثة، نقترح CPED (مجموعة بيانات حوارية باللغة الصينية ذات الشخصية والعاطفة)، وهي مجموعة بيانات حوارية صينية كبيرة تتضمن معرفة متعددة المصادر مرتبطة بالتعاطف والخصائص الشخصية. تغطي هذه المعرفة الجنس، وسمات الشخصية الخمس الكبرى، و13 عاطفة، و19 سلوك حواري، و10 مشاهد. تحتوي CPED على أكثر من 12 ألف حوار لمتحدثين 392 من 40 برنامجًا تلفزيونيًا. نقوم بإصدار مجموعة البيانات النصية مع خصائص الصوت والفيديو بناءً على ادعاءات حقوق الطبع والنشر، ومatters القضايا المتعلقة بالخصوصية، وشروط خدمات منصات الفيديو. نقدم وصفًا مفصلًا لعملية بناء CPED ونقدم ثلاثة مهام لذكاء المحادثة، بما في ذلك التعرف على الشخصية والتعرف على العواطف في المحادثات وكذلك إنشاء محادثات شخصية وعاطفية. أخيرًا، نوفر أنظمة أساسية لهذه المهام ونعتبر دور شخصيات المتحدثين والعواطف في المحادثة. دافعنا هو اقتراح مجموعة بيانات يمكن تبنيها بشكل واسع من قبل مجتمع NLP كمعيار جديد مفتوح لأبحاث ذكاء المحادثة. يمكن الوصول إلى مجموعة البيانات الكاملة عبر الرابط: https://github.com/scutcyr/CPED.请注意,我已将 "matters" 翻译为 "القضايا"،以使句子更加通顺。同时,为了符合阿拉伯语的表达习惯,我对一些句子的结构进行了调整。如果您有任何进一步的要求或需要对特定部分进行修改,请告知。

CPED: مجموعة بيانات حوارية شخصية وعاطفية صينية كبيرة لأجل الذكاء الاصطناعي المحادثي | أحدث الأوراق البحثية | HyperAI