مجموعة بيانات التدريب المسبق التدريجي لـ Firefly Chinese Llama2
التاريخ
منذ عام واحد
الحجم
9.02 GB
رابط النشر
العلامات
الفئات
مجموعة البيانات هي مشروع Firefly-LLaMA2 الصيني ويبلغ إجمالي بيانات التدريب المسبق المتزايدة حوالي 22 جيجابايت من النص، بما في ذلك بشكل أساسي مجموعات بيانات مفتوحة المصدر مثل CLUE، وThucNews، وCNews، وCOIG، وWikipedia، والقصائد القديمة، والنثر، والصينية الكلاسيكية، وما إلى ذلك التي جمعها فريق البحث. ويظهر توزيع البيانات في الشكل أدناه.

firefly-pretrain-dataset.torrent
البذر 1التنزيل 1مكتمل 79إجمالي التنزيلات 109