HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

إعادة التفكير في نماذج المكافأة لتمديد الوقت المخصص للاختبار في مجالات متعددة

إعادة التفكير في نماذج المكافأة لتمديد الوقت المخصص للاختبار في مجالات متعددة

الملخص

تُقاس موثوقية النماذج اللغوية الكبيرة (LLMs) أثناء التوسع في وقت الاختبار غالبًا باستخدام مُحقّقات خارجية أو نماذج مكافأة تميّز بين الاستنتاج الصحيح والمنطق الخاطئ. وغالبًا ما افترضت الدراسات السابقة أن نماذج المكافأة للعملية (PRMs)، التي تُقيّم كل خطوة من خطوات التفكير الوسيطة، تفوق نماذج المكافأة الناتجة (ORMs)، التي تقيّم فقط الإجابة النهائية. ويعتمد هذا الرأي بشكل رئيسي على أدلة من مجالات ضيقة تتمحور حول الرياضيات. نقدّم أول تقييم موحد لأربعة أنواع من نماذج المكافأة: نموذج مكافأة ناتجة تمييزي (\DisORM)، ونموذج مكافأة عملية تمييزي (\DisPRM)، ونموذج مكافأة ناتجة توليدي (\GenORM)، ونموذج مكافأة عملية توليدي (\GenPRM)، عبر 14 مجالًا متنوعًا. وخلافًا للرأي السائد، نجد أن (i) يُظهر \DisORM أداءً مُعادلًا لـ \DisPRM، (ii) لا يُعدّ \GenPRM منافسًا فعّالًا، و(iii) بشكل عام، يُعدّ \GenORM أكثر موثوقية، ويحقق مكاسب كبيرة ومستقرة في كل مجال تم اختباره. ونُعزّي هذا الأداء إلى التقييم التدريجي للخطوات على الطريقة الخاصة بنماذج PRM، الذي يرث ضجيج التسمية من عملية تسمية النماذج اللغوية الكبيرة تلقائيًا، ويعاني من صعوبة في تقييم المسارات الطويلة للتفكير، بما في ذلك تلك التي تتضمّن تحسينًا ذاتيًا للتفكير. وتبين التحليلات النظرية أن تجميع الخطوات يُضاعف الأخطاء مع زيادة طول عملية التفكير، وتؤكد الملاحظات التجريبية هذا التأثير. وتشكّل هذه النتائج تحديًا للفرضية السائدة التي تفترض أن التوجيه التفصيلي دائمًا أفضل، وتدعم استخدام التحقق التوليدي من النتائج في السياقات متعددة المجالات. ونُطلق بشكل علني كودنا وبياناتنا ونقاط التحقق (checkpoints) على الرابط التالي: https://github.com/db-Lee/Multi-RM لتمكين الأبحاث المستقبلية في البيئات متعددة المجالات.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إعادة التفكير في نماذج المكافأة لتمديد الوقت المخصص للاختبار في مجالات متعددة | الأوراق البحثية | HyperAI