HyperAI

مجموعة بيانات التدريب المسبق التدريجي لـ Firefly Chinese Llama2

التاريخ

منذ عام واحد

الحجم

9.02 GB

رابط النشر

huggingface.co

العلامات

مجموعة البيانات هي مشروع Firefly-LLaMA2 الصيني ويبلغ إجمالي بيانات التدريب المسبق المتزايدة حوالي 22 جيجابايت من النص، بما في ذلك بشكل أساسي مجموعات بيانات مفتوحة المصدر مثل CLUE، وThucNews، وCNews، وCOIG، وWikipedia، والقصائد القديمة، والنثر، والصينية الكلاسيكية، وما إلى ذلك التي جمعها فريق البحث. ويظهر توزيع البيانات في الشكل أدناه.

firefly-pretrain-dataset.torrent
البذر 1التنزيل 1مكتمل 79إجمالي التنزيلات 109
  • firefly-pretrain-dataset/
    • README.md
      1.04 KB
    • README.txt
      2.09 KB
      • data/
        • firefly-pretrain-dataset.zip
          9.02 GB