OpenMathInstruct-1: مجموعة بيانات تدريب تعليمي رياضي بحجم 1.8 مليون مثال

أظهرت الدراسات الحديثة الإمكانات الهائلة للبيانات المُولَّدة صناعيًا في تدريب نماذج اللغة الكبيرة (LLMs)، خاصةً في اكتساب المهارات المستهدفة. تم بناء مجموعات بيانات تدريب رياضية واسعة النطاق حديثًا، مثل MetaMathQA (Yu et al., 2024) وMAmmoTH (Yue et al., 2024)، باستخدام مخرجات من نماذج لغة كبيرة مغلقة المصدر ذات تراخيص تجارية محدودة. كان السبب الرئيسي الذي يحد من استخدام النماذج المفتوحة المصدر في هذه سلاسل توليد البيانات هو الفجوة الواسعة بين المهارات الرياضية للنماذج المغلقة المصدر الأفضل، مثل GPT-4، والنموذج المفتوح المصدر الأفضل. وباستناد إلى التقدم الأخير في النماذج المفتوحة المصدر، وابتكارنا في طريقة الصياغة (prompting)، بالإضافة إلى بعض التوسع القائم على القوة الحاسوبية، قمنا ببناء OpenMathInstruct-1، وهي مجموعة بيانات لتدريس الرياضيات تحتوي على 1.8 مليون زوج من المسائل والإجابات. تم بناء هذه المجموعة عن طريق توليد حلول باستخدام معالج الشفرة (code-interpreter) لاختبارات الاستدلال الرياضي الشهيرة GSM8K وMATH، باستخدام نموذج Mixtral الذي تم إطلاقه حديثًا وذو ترخيص مفتوح ومرن. وحقق أفضل نموذج لدينا، OpenMath-CodeLlama-70B، المدرب على جزء من OpenMathInstruct-1، درجة قدرها 84.6% في GSM8K و50.7% في MATH، وهي درجات تنافسية مع أفضل النماذج المستخلصة من GPT. ونُشر كودنا، ونماذجنا، ومجموعة بيانات OpenMathInstruct-1 تحت ترخيص مفتوح ومرن تجاريًا.