HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة كبيرة من النصوص الصينية المحادثة النظيفة من LCCC

التاريخ

منذ 2 أعوام

الحجم

939.48 MB

المؤسسة

جامعة تسينغهوا

عنوان URL للنشر

github.com

رابط الورقة البحثية

arxiv.org

تم إصدار LCCC (مجموعة محادثات صينية منقحة على نطاق واسع) من قبل جامعة تسينغهوا ومعهد سامسونج للأبحاث في الصين في عام 2020.

تتكون مجموعة البيانات بشكل أساسي من جزأين: قاعدة LCCC (6.8 مليون حوار) وقاعدة LCCC الكبيرة (12 مليون حوار). قام فريق البحث بتصميم عملية تصفية بيانات صارمة لضمان جودة بيانات المحادثة في مجموعة البيانات، والتي تعتمد على مجموعة من القواعد ومصنف تم تدريبه على 110 ألف زوج محادثة تم شرحها يدويًا. تتضمن الضوضاء التي قام فريق البحث بتصفيتها ما يلي: الكلمات البذيئة، والأحرف الخاصة، والرموز التعبيرية، والجمل غير الصحيحة نحويًا، والمحادثات غير ذات الصلة بالسياق. ستعمل مجموعة البيانات المنظفة والنماذج المدربة مسبقًا على تسهيل البحث في نمذجة المحادثة النصية القصيرة.

LCCC.torrent
البذر 1جارٍ التنزيل 0مكتمل 316إجمالي التنزيلات 564
  • LCCC/
    • README.md
      1.38 KB
    • README.txt
      2.76 KB
      • data/
        • lccc.zip
          939.48 MB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مجموعة كبيرة من النصوص الصينية المحادثة النظيفة من LCCC | مجموعات بيانات | HyperAI