الملخص

تُقاس موثوقية النماذج اللغوية الكبيرة (LLMs) أثناء التوسع في وقت الاختبار غالبًا باستخدام مُحقّقات خارجية أو نماذج مكافأة تميّز بين الاستنتاج الصحيح والمنطق الخاطئ. وغالبًا ما افترضت الدراسات السابقة أن نماذج المكافأة للعملية (PRMs)، التي تُقيّم كل خطوة من خطوات التفكير الوسيطة، تفوق نماذج المكافأة الناتجة (ORMs)، التي تقيّم فقط الإجابة النهائية. ويعتمد هذا الرأي بشكل رئيسي على أدلة من مجالات ضيقة تتمحور حول الرياضيات. نقدّم أول تقييم موحد لأربعة أنواع من نماذج المكافأة: نموذج مكافأة ناتجة تمييزي (\DisORM)، ونموذج مكافأة عملية تمييزي (\DisPRM)، ونموذج مكافأة ناتجة توليدي (\GenORM)، ونموذج مكافأة عملية توليدي (\GenPRM)، عبر 14 مجالًا متنوعًا. وخلافًا للرأي السائد، نجد أن (i) يُظهر \DisORM أداءً مُعادلًا لـ \DisPRM، (ii) لا يُعدّ \GenPRM منافسًا فعّالًا، و(iii) بشكل عام، يُعدّ \GenORM أكثر موثوقية، ويحقق مكاسب كبيرة ومستقرة في كل مجال تم اختباره. ونُعزّي هذا الأداء إلى التقييم التدريجي للخطوات على الطريقة الخاصة بنماذج PRM، الذي يرث ضجيج التسمية من عملية تسمية النماذج اللغوية الكبيرة تلقائيًا، ويعاني من صعوبة في تقييم المسارات الطويلة للتفكير، بما في ذلك تلك التي تتضمّن تحسينًا ذاتيًا للتفكير. وتبين التحليلات النظرية أن تجميع الخطوات يُضاعف الأخطاء مع زيادة طول عملية التفكير، وتؤكد الملاحظات التجريبية هذا التأثير. وتشكّل هذه النتائج تحديًا للفرضية السائدة التي تفترض أن التوجيه التفصيلي دائمًا أفضل، وتدعم استخدام التحقق التوليدي من النتائج في السياقات متعددة المجالات. ونُطلق بشكل علني كودنا وبياناتنا ونقاط التحقق (checkpoints) على الرابط التالي: https://github.com/db-Lee/Multi-RM لتمكين الأبحاث المستقبلية في البيئات متعددة المجالات.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

إعادة التفكير في نماذج المكافأة لتمديد الوقت المخصص للاختبار في مجالات متعددة

Dong Bok Lee Seanie Lee Sangwoo Park Minki Kang Jinheon Baek Dongki Kim Dominik Wagner Jiongdao Jin Heejun Lee Tobias Bocklet5 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إعادة التفكير في نماذج المكافأة لتمديد الوقت المخصص للاختبار في مجالات متعددة

Dong Bok Lee Seanie Lee Sangwoo Park Minki Kang Jinheon Baek Dongki Kim Dominik Wagner Jiongdao Jin Heejun Lee Tobias Bocklet5 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إعادة التفكير في نماذج المكافأة لتمديد الوقت المخصص للاختبار في مجالات متعددة

Dong Bok Lee Seanie Lee Sangwoo Park Minki Kang Jinheon Baek Dongki Kim Dominik Wagner Jiongdao Jin Heejun Lee Tobias Bocklet5 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Dong Bok Lee Seanie Lee Sangwoo Park Minki Kang Jinheon Baek Dongki Kim Dominik Wagner Jiongdao Jin Heejun Lee Tobias Bocklet

Dong Bok Lee Seanie Lee Sangwoo Park Minki Kang Jinheon Baek Dongki Kim Dominik Wagner Jiongdao Jin Heejun Lee Tobias Bocklet

Dong Bok Lee Seanie Lee Sangwoo Park Minki Kang Jinheon Baek Dongki Kim Dominik Wagner Jiongdao Jin Heejun Lee Tobias Bocklet