OpenMathInstruct-2: تسريع الذكاء الاصطناعي في الرياضيات باستخدام بيانات التعليم المفتوحة الضخمة

يستمر التفكير الرياضي في أن يكون تحديًا حاسمًا في تطوير النماذج اللغوية الكبيرة (LLM) مع اهتمام كبير. ومع ذلك، أصبح معظم التقدم الرائد في التفكير الرياضي باستخدام نماذج LLM \emph{مغلق المصدر} بسبب عدم القدرة على الوصول إلى بيانات التدريب. يحد هذا النقص في الوصول إلى البيانات من قدرة الباحثين على فهم تأثير الخيارات المختلفة لدمج واستخدام البيانات. بهدف إنشاء مجموعة بيانات عالية الجودة للتحسين الدقيق (SFT) للتفكير الرياضي، أجرينا تجارب تقليص دقيقة على دمج البيانات باستخدام عائلة النماذج التي تم إطلاقها مؤخرًا \texttt{Llama3.1}. أظهرت تجاربنا أن: (أ) تنسيق الحل مهم، حيث ثبت أن الحلول المفصلة بشكل مفرط تكون ضارة بأداء SFT، (ب) البيانات التي تم إنتاجها بواسطة معلم قوي تتفوق على البيانات ذات الحجم المتساوي التي تم إنتاجها بواسطة نموذج طالب ضعيف، (ج) يتمتع SFT بالمتانة أمام الحلول منخفضة الجودة، مما يسمح بتصفية البيانات غير الدقيقة، و(د) تعد تنوع الأسئلة حاسمة لتحقيق مكاسب توسعية في البيانات. بناءً على هذه الرؤى، قمنا بإنشاء مجموعة بيانات OpenMathInstruct-2، والتي تتكون من 14 مليون زوج سؤال-حل ($\approx$ 600 ألف سؤال فريد)، مما يجعلها تقريبًا ثمانية أضعاف حجم أكبر مجموعة بيانات مفتوحة المصدر للتفكير الرياضي حتى الآن. عند استخدام OpenMathInstruct-2 لتحسين النموذج \texttt{Llama-3.1-8B-Base} بدقة، فإنه يتفوق على \texttt{Llama3.1-8B-Instruct} بنسبة 15.9\% مطلقة (51.9\% $\rightarrow$ 67.8\%) في اختبار MATH. وأخيرًا، لتسريع الجهود المفتوحة المصدر، قمنا بإصدار الكود والنماذج المحسنة بدقة ومجموعة بيانات OpenMathInstruct-2 تحت رخصة تجارية مرنة.