منذ شهر واحد

نموذج الاستدلال العنيد: تشخيص تجاوز التعليمات في نماذج الاستدلال

Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang

الملخص

أظهرت النماذج اللغوية الكبيرة كفاءة ملحوظة في المهام المنطقية الطويلة والمعقدة. ومع ذلك، فإنها غالباً ما تعاني من الاعتماد المشين على أنماط الاستدلال المألوفة، وهي ظاهرة نطلق عليها \textit{الثبات المنطقي} (Reasoning Rigidity). رغم التعليمات الصريحة من المستخدمين، تتجاهل هذه النماذج غالباً الشروط المحددة بوضوح وتتجه إلى المسارات الاستدلالية العادة، مما يؤدي إلى استنتاجات خاطئة. يمثل هذا السلوك تحديات كبيرة، خاصة في المجالات مثل الرياضيات وألغاز المنطق، حيث يتطلب الالتزام الدقيق بالقيود المحددة بشكل حاسم. لدراسة الثبات المنطقي بشكل منهجي، وهو سلوك لم يتم استكشافه بشكل كبير في الأعمال السابقة، نقدم مجموعة تشخيصية تم تحريرها من قبل الخبراء، وهي \dataset{}. تتضمن مجموعتنا بيانات نسخ معدلة خصيصاً من المقاييس الرياضية الموجودة مثل AIME وMATH500 (AIME وMATH500)، بالإضافة إلى ألغاز مشهورة تم إعادة تصميمها بعناية لتتطلب الانحراف عن استراتيجيات الاستدلال المألوفة. باستخدام هذه المجموعة البيانات، نحدد الأنماط المتكررة للتلوث التي تحدث عندما تتجه النماذج إلى الاستدلال المتأصل. وبشكل خاص، نصنف هذا التلوث إلى ثلاثة أوضاع مميزة: (i) الإفراط في التفسير (Interpretation Overload)، (ii) عدم ثقة الإدخال (Input Distrust)، و(iii) انتباه جزئي للتعليمات (Partial Instruction Attention)، كل منها يسبب للنماذج تجاهل أو تشويه التعليمات المعطاة. نقوم بإصدار مجموعتنا التشخيصية للجمهور لتسهيل البحث المستقبلي حول تخفيف الثبات المنطقي في النماذج اللغوية.