HyperAI

مجموعة بيانات تدريب الرياضيات على الويب المفتوح OpenWebMath

التاريخ

منذ عام واحد

الحجم

44.21 GB

المؤسسة

جامعة كامبريدج
جامعة تورنتو

رابط النشر

huggingface.co

OpenWebMath عبارة عن مجموعة بيانات تحتوي على نصوص رياضية عالية الجودة من معظم الإنترنت. يتم تصفيته واستخراجه من أكثر من 200 مليار ملف HTML على Common Crawl، مما أدى إلى مجموعة من 6.3 مليون مستند تحتوي على إجمالي 14.7 مليار رمز. تم تصميم OpenWebMath ليتم استخدامه للتدريب المسبق والكون المثالىنماذج لغوية كبيرة.

OpenWebMath.torrent
البذر 2التنزيل 1مكتمل 157إجمالي التنزيلات 212
  • OpenWebMath/
    • README.md
      1.13 KB
    • README.txt
      2.26 KB
      • data/
        • open-web-math.zip
          44.21 GB