HyperAIHyperAI
منذ 18 أيام

نماذج القيمة المُشرَفة على النتيجة OVM للخطة في الاستدلال الرياضي

Fei Yu, Anningzhe Gao, Benyou Wang
نماذج القيمة المُشرَفة على النتيجة OVM للخطة في الاستدلال الرياضي
الملخص

تواجه النماذج اللغوية الكبيرة (LLMs) صعوبة في الحفاظ على الدقة خلال مراحل الاستدلال المتعددة، خاصة في الاستدلال الرياضي، حيث يمكن أن ينتشر خطأ في المراحل المبكرة إلى المراحل اللاحقة، مما يؤدي في النهاية إلى إجابة خاطئة. ولتقليل انتشار الأخطاء، يُستخدم الاستخلاص الموجه (guided decoding) لتوجيه عملية استخلاص النموذج خطوة بخطوة. نحن نرى أن في الاستخلاص الموجه، يمكن أن يكون تقييم إمكانية مسار استدلال غير مكتمل أكثر فائدة من مجرد ضمان صحة كل خطوة على حدة، لأن النهج الأول يؤدي إلى إجابة صحيحة في النهاية. وهذا يحوّل المهمة إلى مشكلة تقييم القيمة (value estimation) في التخطيط.مستوحين من النتائج التي تشير إلى أن "المراقبة على النتيجة في الاستخلاص الموجه تعمل فعليًا كنموذج للقيمة"، نقترح نموذجًا جديدًا يُسمى نموذج القيمة المُوجَّه بالنتيجة (Outcome-supervised Value Model - OVM)، والذي يستخدم المراقبة على النتيجة لتدريب نموذج قيم، بحيث يُعطي أولوية للخطوات التي تؤدي إلى استنتاجات دقيقة. علاوة على ذلك، يُزيل OVM الحاجة إلى التصنيفات اليدوية المكلفة لصحة الخطوات، مما يعزز بشكل كبير قابليته للتوسع. أظهرت تجاربنا على مجموعتي بيانات رياضية متعددة الخطوات، وهما GSM8K وGame of 24، أداءً متفوقًا لنموذج OVM. وبشكل خاص، حقق نموذج OVM-7B نتائج رائدة بين النماذج اللغوية الكبيرة حتى 13B من المعلمات في مجموعة بيانات GSM8K، دون استخدام GPT-4 أو تنفيذ التعليمات البرمجية. تُقدّم هذه النتائج منظورًا جديدًا حول دور المراقبة على النتيجة في تدريب نماذج القيمة للمهام ذات الاستدلال المتعدد الخطوات، وتوفر تبريرًا نظريًا لتفوّقها في تقييم القيمة ضمن عملية الاستخلاص الموجه.

نماذج القيمة المُشرَفة على النتيجة OVM للخطة في الاستدلال الرياضي | أحدث الأوراق البحثية | HyperAI