HyperAIHyperAI

مجموعة كبيرة من النصوص الصينية المحادثة النظيفة من LCCC

التاريخ

منذ عام واحد

الحجم

939.48 MB

المؤسسة

جامعة تسينغهوا

رابط النشر

github.com

رابط الورقة البحثية

arxiv.org

تم إصدار LCCC (مجموعة محادثات صينية منقحة على نطاق واسع) من قبل جامعة تسينغهوا ومعهد سامسونج للأبحاث في الصين في عام 2020.

تتكون مجموعة البيانات بشكل أساسي من جزأين: قاعدة LCCC (6.8 مليون حوار) وقاعدة LCCC الكبيرة (12 مليون حوار). قام فريق البحث بتصميم عملية تصفية بيانات صارمة لضمان جودة بيانات المحادثة في مجموعة البيانات، والتي تعتمد على مجموعة من القواعد ومصنف تم تدريبه على 110 ألف زوج محادثة تم شرحها يدويًا. تتضمن الضوضاء التي قام فريق البحث بتصفيتها ما يلي: الكلمات البذيئة، والأحرف الخاصة، والرموز التعبيرية، والجمل غير الصحيحة نحويًا، والمحادثات غير ذات الصلة بالسياق. ستعمل مجموعة البيانات المنظفة والنماذج المدربة مسبقًا على تسهيل البحث في نمذجة المحادثة النصية القصيرة.

مركز لندن للمؤتمرات والمعارض.torrent
البذر 1التنزيل 0مكتمل 238إجمالي التنزيلات 425
  • LCCC/
    • README.md
      1.38 KB
    • README.txt
      2.76 KB
      • data/
        • lccc.zip
          939.48 MB
مجموعة كبيرة من النصوص الصينية المحادثة النظيفة من LCCC | مجموعات البيانات | HyperAI