دراسة تجريبية لحدود القدرة على المعالجة في نماذج لغة كبيرة (LLMs) عند التفكير الرياضي

تُظهر النماذج اللغوية الكبيرة (LLMs) قدرات ناشئة في مهام الاستدلال الرياضي، ويزداد الاهتمام بتعزيز قدرة النماذج المفتوحة المصدر من خلال التدريب المراقب (SFT). في هذه الورقة، نهدف إلى استكشاف استراتيجية بيانات عامة للبيانات المراقبة لتحسين وتوسيع قدرة الاستدلال الرياضي. أولاً، نحدد حدود القدرة على تكثيف مسارات الاستدلال من خلال تحديد المجموعة المثلى الأدنى من هذه المسارات. ثانيًا، نؤكد أن القدرات المختلفة للنموذج يمكن تعزيزها تراكميًا من خلال مزيج المجموعات المثلى الدنيا من أنواع البيانات المقابلة، بينما تحقق نماذجنا MMOS أداءً متفوقًا على مستوى الحالة الحالية (SOTA) على سلسلة من النماذج الأساسية، وبتكلفة بناء أقل بكثير. بالإضافة إلى ذلك، نشير إلى أن مجموعة بيانات GSM-HARD ليست صعبة فعلاً، وأن النماذج اللغوية الكبيرة الحالية لم تعد تعاني من نقص في الموثوقية العددية. كما نقدّم أداة توليد مشكلات تلقائية (Auto Problem Generator) لاختبار الموثوقية والتطبيقات التعليمية. يتوفر الكود والبيانات الخاصة بنا بشكل عام على الرابط: https://github.com/cyzhh/MMOS.