HyperAIHyperAI

مجموعة بيانات تدريب الرياضيات على الويب المفتوح OpenWebMath

التاريخ

منذ عام واحد

الحجم

44.21 GB

المؤسسة

جامعة كامبريدج
جامعة تورنتو

رابط النشر

huggingface.co

OpenWebMath عبارة عن مجموعة بيانات تحتوي على نصوص رياضية عالية الجودة من معظم الإنترنت. يتم تصفيته واستخراجه من أكثر من 200 مليار ملف HTML على Common Crawl، مما أدى إلى مجموعة من 6.3 مليون مستند تحتوي على إجمالي 14.7 مليار رمز. تم تصميم OpenWebMath ليتم استخدامه للتدريب المسبق والكون المثالىنماذج لغوية كبيرة.

OpenWebMath.torrent
البذر 1التنزيل 0مكتمل 203إجمالي التنزيلات 292
  • OpenWebMath/
    • README.md
      1.13 KB
    • README.txt
      2.26 KB
      • data/
        • open-web-math.zip
          44.21 GB
مجموعة بيانات تدريب الرياضيات على الويب المفتوح OpenWebMath | مجموعات البيانات | HyperAI