الملخص

نماذج المكافآت العملية (PRMs) توفر تغذية راجعة على مستوى الخطوة للاستدلال، ولكن نماذج PRM الحالية تُخرج عادةً درجة مكافأة واحدة فقط لكل خطوة. وبالتالي، يجب أن تعامل الأساليب اللاحقة التنبؤات غير المثالية للمكافآت على مستوى الخطوة كإشارات قرار موثوقة، دون أي مؤشر حول متى يجب الوثوق بهذه التنبؤات. نقترح هنا BetaPRM، وهو نموذج PRM توزيعي يتنبأ بكل من احتمالية النجاح على مستوى الخطوة وموثوقية هذا التنبؤ. باستخدام الإشراف على نجاح الخطوة المستمد من الاستمراريات العشوائية (Monte Carlo continuations)، يتعلم BetaPRM اعتقاداً بتوزيع بيتا (Beta belief) يفسر العدد الملاحظ للاستمراريات الناجحة من خلال دالة احتمالية بيتا-ذو الحدين (Beta-Binomial likelihood)، بدلاً من الانحدار نحو نسبة النجاح في العينات المحدودة كهدف نقطي. يشير هذا الإشارات الموثوقية المتعلمة إلى متى يجب الوثوق بمكافأة الخطوة، مما يتيح للتطبيقات اللاحقة التمييز بين المكافآت الموثوقة وتلك غير المؤكدة. كأحد التطبيقات، نقدم تخصيص الحساب التكيفي (ACA) للاستدلال من نوع Best-of-N الموجه بواسطة نماذج PRM. يستخدم ACA إشارة الموثوقية المتعلمة للتوقف عندما يكون الحل عالي المكافأة موثوقاً، ولإنفاق حساب إضافي على السوابق المرشحة غير المؤكدة. تظهر التجارب عبر أربعة نماذج أساسية وأربعة معايير للاختبار في مجال الاستدلال أن BetaPRM يحسن اختيار Best-of-N الموجه بواسطة نماذج PRM مع الحفاظ على كشف الأخطاء القياسي على مستوى الخطوة. وبناءً على هذه الإشارة، يحسن ACA مقايضة الدقة-الرمز (token) مقارنةً بـ Best-of-16 ذي الميزانية الثابتة، مما يقلل استخدام الرموز بنسبة تصل إلى 33.57% مع تحسين دقة الإجابة النهائية.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار