Command Palette
Search for a command to run...
Math-Shepherd: التحقق وتعزيز نماذج LLM خطوة بخطوة دون تسميات بشرية
Math-Shepherd: التحقق وتعزيز نماذج LLM خطوة بخطوة دون تسميات بشرية
Peiyi Wang Lei Li Zhihong Shao R.X. Xu Damai Dai Yifei Li Deli Chen Y.Wu Zhifang Sui
الملخص
في هذه الورقة، نقدم نموذجًا مبتكرًا للتحفيز القائم على العملية في حل المسائل الرياضية يُسمى \textbf{Math-Shepherd}، والذي يُعطي درجة مكافأة لكل خطوة من خطوات حل المسائل الرياضية. يتم تدريب نموذج Math-Shepherd باستخدام بيانات إشراف تلقائية البناء على مستوى العملية، مما يكسر الحدود المفروضة على الاعتماد الشديد على التصنيف اليدوي في الأبحاث السابقة. نستعرض فعالية Math-Shepherd في حالتين: 1) \textit{التحقق}: يُستخدم Math-Shepherd لإعادة ترتيب عدة إخراجات تم إنتاجها بواسطة نماذج اللغة الكبيرة (LLMs)؛ 2) \textit{التعلم المعزز}: يُستخدم Math-Shepherd لتعزيز نماذج LLMs باستخدام خوارزمية التحسين المتجه المتباعد خطوة بخطوة (PPO). وباستخدام Math-Shepherd، تُظهر سلسلة من نماذج LLMs المفتوحة المصدر أداءً استثنائيًا. على سبيل المثال، يُحسّن التحسين التدريجي باستخدام PPO مع Math-Shepherd دقة نموذج Mistral-7B من 77.9% إلى 84.1% على مجموعة بيانات GSM8K، ومن 28.6% إلى 33.0% على مجموعة بيانات MATH. كما يمكن رفع الدقة إلى 89.1% و43.5% على التوالي على مجموعتي بيانات GSM8K وMATH من خلال استخدام آلية التحقق المدعومة بـ Math-Shepherd. نعتقد أن الإشراف التلقائي على العملية يحمل إمكانات كبيرة لتطور نماذج لغة كبيرة في المستقبل.