HyperAIHyperAI

Command Palette

Search for a command to run...

إعادة التصور: تركيب مقاييس رمزية لتقييم الاستدلال

الملخص

النماذج اللغوية الكبيرة (LLMs) الحديثة قد أبلغت عن دقة عالية في مقاييس الاستدلال. ومع ذلك، لا يزال غير واضح ما إذا كانت النتائج الملاحظة تنبع من استدلال حقيقي أم من استرجاع إحصائي لمجموعة التدريب. مستوحاةً من سلم السببية (بيرل، 2009) ومستوياته الثلاثة (الارتباطات، التدخلات والافتراضات المعاكسة)، تقدم هذه الورقة البحثية إطار RE-IMAGINE لتحديد هرم قدرات الاستدلال في النماذج اللغوية الكبيرة، بالإضافة إلى خط أنابيب آلي لإنشاء تباينات مشكلات على مستويات مختلفة من هذا الهرم. من خلال تعديل المشكلات في تمثيل رمزي متوسط، يولد RE-IMAGINE عددًا غير محدود من المشكلات التي لا يمكن حلها باستخدام الحفظ وحده. علاوة على ذلك، فإن الإطار عام ويمكنه العمل عبر مجالات الاستدلال المختلفة، بما في ذلك الرياضيات والبرمجة والمنطق. نقوم بتطبيق إطارنا على أربع مقاييس شائعة الاستخدام لتقييم عدة عائلات من النماذج اللغوية الكبيرة، ونلاحظ انخفاضًا في الأداء عند استعلام النماذج بمتغيرات المشكلات. تشير هذه التقييمات إلى درجة معينة من الاعتماد على الاسترجاع الإحصائي للأداء السابق، مما يفتح المجال لأبحاث إضافية تستهدف المهارات عبر هرم الاستدلال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إعادة التصور: تركيب مقاييس رمزية لتقييم الاستدلال | مستندات | HyperAI