HyperAI

مجموعة كبيرة من النصوص الصينية المحادثة النظيفة من LCCC

التاريخ

منذ عام واحد

الحجم

939.48 MB

المؤسسة

جامعة تسينغهوا

رابط النشر

github.com

تم إصدار LCCC (مجموعة محادثات صينية منقحة على نطاق واسع) من قبل جامعة تسينغهوا ومعهد سامسونج للأبحاث في الصين في عام 2020.

تتكون مجموعة البيانات بشكل أساسي من جزأين: قاعدة LCCC (6.8 مليون حوار) وقاعدة LCCC الكبيرة (12 مليون حوار). قام فريق البحث بتصميم عملية تصفية بيانات صارمة لضمان جودة بيانات المحادثة في مجموعة البيانات، والتي تعتمد على مجموعة من القواعد ومصنف تم تدريبه على 110 ألف زوج محادثة تم شرحها يدويًا. تتضمن الضوضاء التي قام فريق البحث بتصفيتها ما يلي: الكلمات البذيئة، والأحرف الخاصة، والرموز التعبيرية، والجمل غير الصحيحة نحويًا، والمحادثات غير ذات الصلة بالسياق. ستعمل مجموعة البيانات المنظفة والنماذج المدربة مسبقًا على تسهيل البحث في نمذجة المحادثة النصية القصيرة.

LCCC.torrent
البذر 2التنزيل 1مكتمل 129إجمالي التنزيلات 305
  • LCCC/
    • README.md
      1.38 KB
    • README.txt
      2.76 KB
      • data/
        • lccc.zip
          939.48 MB