مجموعة كبيرة من النصوص الصينية المحادثة النظيفة من LCCC
التاريخ
منذ عام واحد
الحجم
939.48 MB
رابط النشر
الفئات
تم إصدار LCCC (مجموعة محادثات صينية منقحة على نطاق واسع) من قبل جامعة تسينغهوا ومعهد سامسونج للأبحاث في الصين في عام 2020.
تتكون مجموعة البيانات بشكل أساسي من جزأين: قاعدة LCCC (6.8 مليون حوار) وقاعدة LCCC الكبيرة (12 مليون حوار). قام فريق البحث بتصميم عملية تصفية بيانات صارمة لضمان جودة بيانات المحادثة في مجموعة البيانات، والتي تعتمد على مجموعة من القواعد ومصنف تم تدريبه على 110 ألف زوج محادثة تم شرحها يدويًا. تتضمن الضوضاء التي قام فريق البحث بتصفيتها ما يلي: الكلمات البذيئة، والأحرف الخاصة، والرموز التعبيرية، والجمل غير الصحيحة نحويًا، والمحادثات غير ذات الصلة بالسياق. ستعمل مجموعة البيانات المنظفة والنماذج المدربة مسبقًا على تسهيل البحث في نمذجة المحادثة النصية القصيرة.
LCCC.torrent
البذر 2التنزيل 1مكتمل 129إجمالي التنزيلات 305