دعونا نتحقق خطوة بخطوة

في السنوات الأخيرة، تحسّنت قدرة النماذج اللغوية الكبيرة بشكل كبير على أداء الاستدلال المعقد متعدد الخطوات. ومع ذلك، لا تزال النماذج الرائدة تُخطئ من وقت لآخر في التفكير المنطقي. لتدريب نماذج أكثر موثوقية، يمكننا الاعتماد إما على المراقبة الناتجة، التي تُقدّم ملاحظات حول النتيجة النهائية، أو على المراقبة العملية، التي تُقدّم ملاحظات لكل خطوة استدلالية وسيطة. وبما أن تدريب نماذج موثوقة أمر بالغ الأهمية، وبما أن تكلفة الملاحظات البشرية عالية، فمن الضروري مقارنة هاتين الطريقتين بعناية. وقد بدأت أبحاث حديثة بالفعل هذه المقارنة، لكن هناك العديد من الأسئلة التي ما زالت معلقة. نُجري دراسة خاصة بنا، ونجد أن المراقبة العملية تتفوّق بشكل كبير على المراقبة الناتجة عند تدريب النماذج على حل مسائل من مجموعة بيانات MATH الصعبة. حيث تمكّن النموذج المُدرّب باستخدام المراقبة العملية من حل 78% من المسائل في عينة تمثيلية من مجموعة اختبار MATH. علاوةً على ذلك، نُظهر أن التعلّم النشط يُحسّن بشكل كبير كفاءة المراقبة العملية. ولدعم الأبحاث ذات الصلة، نُطلق أيضًا PRM800K، وهي المجموعة الكاملة من التسميات البشرية على مستوى الخطوات التي تضم 800,000 ملاحظة، المستخدمة لتدريب نموذج المكافأة الأفضل لدينا.