HyperAIHyperAI

Command Palette

Search for a command to run...

Math-Shepherd: التحقق وتعزيز نماذج LLM خطوة بخطوة دون تسميات بشرية

Peiyi Wang Lei Li Zhihong Shao R.X. Xu Damai Dai Yifei Li Deli Chen Y.Wu Zhifang Sui

الملخص

في هذه الورقة، نقدم نموذجًا مبتكرًا للتحفيز القائم على العملية في حل المسائل الرياضية يُسمى \textbf{Math-Shepherd}، والذي يُعطي درجة مكافأة لكل خطوة من خطوات حل المسائل الرياضية. يتم تدريب نموذج Math-Shepherd باستخدام بيانات إشراف تلقائية البناء على مستوى العملية، مما يكسر الحدود المفروضة على الاعتماد الشديد على التصنيف اليدوي في الأبحاث السابقة. نستعرض فعالية Math-Shepherd في حالتين: 1) \textit{التحقق}: يُستخدم Math-Shepherd لإعادة ترتيب عدة إخراجات تم إنتاجها بواسطة نماذج اللغة الكبيرة (LLMs)؛ 2) \textit{التعلم المعزز}: يُستخدم Math-Shepherd لتعزيز نماذج LLMs باستخدام خوارزمية التحسين المتجه المتباعد خطوة بخطوة (PPO). وباستخدام Math-Shepherd، تُظهر سلسلة من نماذج LLMs المفتوحة المصدر أداءً استثنائيًا. على سبيل المثال، يُحسّن التحسين التدريجي باستخدام PPO مع Math-Shepherd دقة نموذج Mistral-7B من 77.9% إلى 84.1% على مجموعة بيانات GSM8K، ومن 28.6% إلى 33.0% على مجموعة بيانات MATH. كما يمكن رفع الدقة إلى 89.1% و43.5% على التوالي على مجموعتي بيانات GSM8K وMATH من خلال استخدام آلية التحقق المدعومة بـ Math-Shepherd. نعتقد أن الإشراف التلقائي على العملية يحمل إمكانات كبيرة لتطور نماذج لغة كبيرة في المستقبل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Math-Shepherd: التحقق وتعزيز نماذج LLM خطوة بخطوة دون تسميات بشرية | مستندات | HyperAI