HyperAI

مجموعة البيانات الرياضية Proof-Pile-2

التاريخ

منذ عام واحد

الحجم

47.57 GB

المؤسسة

جامعة برينستون

رابط النشر

huggingface.co

特色图像

Proof-Pile-2 عبارة عن مجموعة بيانات مميزة مكونة من 55 مليار مستند رياضي وعلمي. مزيج من الأوراق العلمية ومحتوى الويب المتعلق بالرياضيات وأكواد الرياضيات حتى أبريل 2023 (باستثناء مجموعة فرعية محددة من خطوات Lean proof). تم إنشاء مجموعة البيانات هذه لتدريب نموذجي Llemma 7B وLlemma 34B.

وهو يتألف من ثلاث مجموعات فرعية:

  • arxiv (29 مليار رمز): مجموعة فرعية من ArXiv تابعة لـ RedPajama
  • open-web-math (15 مليار رمز):أوبن ويب ماث مجموعة بيانات تحتوي على العديد من النصوص الرياضية عالية الجودة من الإنترنت.
  • algebraic-stack (11 مليار رمز): مجموعة بيانات جديدة من الرموز الرياضية التي تغطي الحوسبة العددية، والجبر الحاسوبي، والرياضيات الرسمية.
proof-pile-2.torrent
البذر 1التنزيل 2مكتمل 86إجمالي التنزيلات 152
  • proof-pile-2/
    • README.md
      1.37 KB
    • README.txt
      2.73 KB
      • data/
        • proof-pile-2.zip
          47.57 GB