HyperAI

مجموعة بيانات ضبط تعليمات الرياضيات OpenMathInstruct-2

OpenMathInstruct-2 هي مجموعة بيانات تعليمات رياضية مفتوحة المصدر واسعة النطاق أصدرتها NVIDIA في عام 2024، والتي تهدف إلى تسريع تقدم الذكاء الاصطناعي في الرياضيات. "نتائج الورقة ذات الصلة هي"OpenMathInstruct-2: تسريع الذكاء الاصطناعي في الرياضيات باستخدام بيانات تعليمية مفتوحة المصدر ضخمةتحتوي مجموعة البيانات على 14 مليون زوج من الأسئلة والأجوبة (ما يقارب 600,000 سؤال فريد)، مما يجعلها أكبر بنحو ثمانية أضعاف من أكبر مجموعة بيانات من نوعها سابقًا. من خلال تحسين نموذج Llama-3.1-8B-Base باستخدام OpenMathInstruct-2، تحسّن أداءه على مجموعة بيانات MATH بمقدار 15.9% مقارنةً بنموذج Llama3.1-8B-Instruct (من 51.9% إلى 67.8%).

تحتوي مجموعة بيانات OpenMathInstruct-2 على الحقول التالية:

  • مشكلة:المشاكل الأصلية، إما من مجموعات التدريب GSM8K أو MATH، أو المشاكل المعززة من مجموعات التدريب هذه.
  • الحل المُولَّد:الحل المُولَّد صناعيًا.
  • الإجابة المتوقعة:بالنسبة للأسئلة الموجودة في مجموعة التدريب، فهي الإجابة المرجعية الحقيقية المقدمة في مجموعة البيانات. بالنسبة للأسئلة المعززة، فهي الإجابة التي تم الحصول عليها بأغلبية الأصوات.
  • مصدر المشكلة:يشير إلى أن المشكلة تأتي مباشرة من GSM8K أو MATH، أو أنها نسخة محسنة مشتقة من أي مجموعة بيانات.
مثال على بنية مجموعة البيانات

OpenMathInstruct-2.torrent
البذر 2التنزيل 1مكتمل 62إجمالي التنزيلات 43
  • OpenMathInstruct-2/
    • README.md
      1.85 KB
    • README.txt
      3.7 KB
      • data/
        • OpenMathInstruct-2.zip
          10.23 GB