إعادة التصور: تركيب مقاييس رمزية لتقييم الاستدلال

النماذج اللغوية الكبيرة (LLMs) الحديثة قد أبلغت عن دقة عالية في مقاييس الاستدلال. ومع ذلك، لا يزال غير واضح ما إذا كانت النتائج الملاحظة تنبع من استدلال حقيقي أم من استرجاع إحصائي لمجموعة التدريب. مستوحاةً من سلم السببية (بيرل، 2009) ومستوياته الثلاثة (الارتباطات، التدخلات والافتراضات المعاكسة)، تقدم هذه الورقة البحثية إطار RE-IMAGINE لتحديد هرم قدرات الاستدلال في النماذج اللغوية الكبيرة، بالإضافة إلى خط أنابيب آلي لإنشاء تباينات مشكلات على مستويات مختلفة من هذا الهرم. من خلال تعديل المشكلات في تمثيل رمزي متوسط، يولد RE-IMAGINE عددًا غير محدود من المشكلات التي لا يمكن حلها باستخدام الحفظ وحده. علاوة على ذلك، فإن الإطار عام ويمكنه العمل عبر مجالات الاستدلال المختلفة، بما في ذلك الرياضيات والبرمجة والمنطق. نقوم بتطبيق إطارنا على أربع مقاييس شائعة الاستخدام لتقييم عدة عائلات من النماذج اللغوية الكبيرة، ونلاحظ انخفاضًا في الأداء عند استعلام النماذج بمتغيرات المشكلات. تشير هذه التقييمات إلى درجة معينة من الاعتماد على الاسترجاع الإحصائي للأداء السابق، مما يفتح المجال لأبحاث إضافية تستهدف المهارات عبر هرم الاستدلال.