Math-Shepherd: التحقق وتعزيز نماذج LLM خطوة بخطوة دون تسميات بشرية

في هذه الورقة، نقدم نموذجًا مبتكرًا للتحفيز القائم على العملية في حل المسائل الرياضية يُسمى \textbf{Math-Shepherd}، والذي يُعطي درجة مكافأة لكل خطوة من خطوات حل المسائل الرياضية. يتم تدريب نموذج Math-Shepherd باستخدام بيانات إشراف تلقائية البناء على مستوى العملية، مما يكسر الحدود المفروضة على الاعتماد الشديد على التصنيف اليدوي في الأبحاث السابقة. نستعرض فعالية Math-Shepherd في حالتين: 1) \textit{التحقق}: يُستخدم Math-Shepherd لإعادة ترتيب عدة إخراجات تم إنتاجها بواسطة نماذج اللغة الكبيرة (LLMs)؛ 2) \textit{التعلم المعزز}: يُستخدم Math-Shepherd لتعزيز نماذج LLMs باستخدام خوارزمية التحسين المتجه المتباعد خطوة بخطوة (PPO). وباستخدام Math-Shepherd، تُظهر سلسلة من نماذج LLMs المفتوحة المصدر أداءً استثنائيًا. على سبيل المثال، يُحسّن التحسين التدريجي باستخدام PPO مع Math-Shepherd دقة نموذج Mistral-7B من 77.9\% إلى 84.1\% على مجموعة بيانات GSM8K، ومن 28.6\% إلى 33.0\% على مجموعة بيانات MATH. كما يمكن رفع الدقة إلى 89.1\% و43.5\% على التوالي على مجموعتي بيانات GSM8K وMATH من خلال استخدام آلية التحقق المدعومة بـ Math-Shepherd. نعتقد أن الإشراف التلقائي على العملية يحمل إمكانات كبيرة لتطور نماذج لغة كبيرة في المستقبل.