Command Palette
Search for a command to run...
مكافآت العملية مع الموثوقية المتعلمة
مكافآت العملية مع الموثوقية المتعلمة
Jinyuan Li Langlin Huang Chengsong Huang Shaoyang Xu Donghong Cai Yuyi Yang Wenxuan Zhang Jiaxin Huang
الملخص
نماذج المكافآت العملية (PRMs) توفر تغذية راجعة على مستوى الخطوة للاستدلال، ولكن نماذج PRM الحالية تُخرج عادةً درجة مكافأة واحدة فقط لكل خطوة. وبالتالي، يجب أن تعامل الأساليب اللاحقة التنبؤات غير المثالية للمكافآت على مستوى الخطوة كإشارات قرار موثوقة، دون أي مؤشر حول متى يجب الوثوق بهذه التنبؤات. نقترح هنا BetaPRM، وهو نموذج PRM توزيعي يتنبأ بكل من احتمالية النجاح على مستوى الخطوة وموثوقية هذا التنبؤ. باستخدام الإشراف على نجاح الخطوة المستمد من الاستمراريات العشوائية (Monte Carlo continuations)، يتعلم BetaPRM اعتقاداً بتوزيع بيتا (Beta belief) يفسر العدد الملاحظ للاستمراريات الناجحة من خلال دالة احتمالية بيتا-ذو الحدين (Beta-Binomial likelihood)، بدلاً من الانحدار نحو نسبة النجاح في العينات المحدودة كهدف نقطي. يشير هذا الإشارات الموثوقية المتعلمة إلى متى يجب الوثوق بمكافأة الخطوة، مما يتيح للتطبيقات اللاحقة التمييز بين المكافآت الموثوقة وتلك غير المؤكدة. كأحد التطبيقات، نقدم تخصيص الحساب التكيفي (ACA) للاستدلال من نوع Best-of-N الموجه بواسطة نماذج PRM. يستخدم ACA إشارة الموثوقية المتعلمة للتوقف عندما يكون الحل عالي المكافأة موثوقاً، ولإنفاق حساب إضافي على السوابق المرشحة غير المؤكدة. تظهر التجارب عبر أربعة نماذج أساسية وأربعة معايير للاختبار في مجال الاستدلال أن BetaPRM يحسن اختيار Best-of-N الموجه بواسطة نماذج PRM مع الحفاظ على كشف الأخطاء القياسي على مستوى الخطوة. وبناءً على هذه الإشارة، يحسن ACA مقايضة الدقة-الرمز (token) مقارنةً بـ Best-of-16 ذي الميزانية الثابتة، مما يقلل استخدام الرموز بنسبة تصل إلى 33.57% مع تحسين دقة الإجابة النهائية.