مجموعة كبيرة من النصوص الصينية المحادثة النظيفة من LCCC
التاريخ
منذ عام واحد
الحجم
939.48 MB
رابط النشر
رابط الورقة البحثية
تم إصدار LCCC (مجموعة محادثات صينية منقحة على نطاق واسع) من قبل جامعة تسينغهوا ومعهد سامسونج للأبحاث في الصين في عام 2020.
تتكون مجموعة البيانات بشكل أساسي من جزأين: قاعدة LCCC (6.8 مليون حوار) وقاعدة LCCC الكبيرة (12 مليون حوار). قام فريق البحث بتصميم عملية تصفية بيانات صارمة لضمان جودة بيانات المحادثة في مجموعة البيانات، والتي تعتمد على مجموعة من القواعد ومصنف تم تدريبه على 110 ألف زوج محادثة تم شرحها يدويًا. تتضمن الضوضاء التي قام فريق البحث بتصفيتها ما يلي: الكلمات البذيئة، والأحرف الخاصة، والرموز التعبيرية، والجمل غير الصحيحة نحويًا، والمحادثات غير ذات الصلة بالسياق. ستعمل مجموعة البيانات المنظفة والنماذج المدربة مسبقًا على تسهيل البحث في نمذجة المحادثة النصية القصيرة.
مركز لندن للمؤتمرات والمعارض.torrent
البذر 1التنزيل 0مكتمل 238إجمالي التنزيلات 425