Inverse IFEval: هل يمكن للنماذج اللغوية الكبيرة أن تنسى التقاليد التدريبية المستعصية للامتثال للتعليمات الحقيقية؟

تحقيق نماذج اللغة الكبيرة (LLMs) أداءً قوياً في مهام متنوعة، لكنها غالبًا ما تُظهر ما يُعرف بـ "التكيف الذهني" (cognitive inertia)، ما يجعلها تواجه صعوبات في اتباع التعليمات التي تتعارض مع الأنماط القياسية التي تعلّمتها خلال مرحلة التحسين المراقب (SFT). ولتقييم هذا التقييد، نقترح "Inverse IFEval"، وهو معيار تقييم يقيس قدرة النماذج على التغلب على التحيّزات الناتجة عن التدريب والامتثال للتعليمات المُعاكسة (adversarial instructions). يُقدّم معيار Inverse IFEval ثمانية أنواع من التحديات، منها: تصحيح السؤال، والنصوص المُقصودة أن تكون فيها عيوب لغوية، والكود دون تعليقات، والإجابة على سيناريوهات وهمية (Counterfactual Answering). وباستخدام نموذج يعتمد على مشاركة بشرية (human-in-the-loop)، نُنشئ مجموعة بيانات مكوّنة من 1012 سؤالًا عالي الجودة باللغتين الصينية والإنجليزية، تغطي 23 مجالًا مختلفًا، وتُقيّم ضمن إطار مُحسّن يعتمد على استخدام نموذج لغة كبير كـ "محكم" (LLM-as-a-Judge). أظهرت التجارب على أبرز النماذج الحالية لـ LLMs ضرورة وجود معيار Inverse IFEval المُقترح. وتُبرز نتائجنا أن الجهود المستقبلية في مجال التوافق (alignment) لا ينبغي أن تقتصر على تحقيق السلاسة والدقة الواقعية فقط، بل يجب أيضًا أخذ القدرة على التكيّف في السياقات غير التقليدية بعين الاعتبار. نأمل أن يُصبح معيار Inverse IFEval أداة تشخيصية وقاعدةً لتطوير أساليب تقلل من التأثيرات السلبية للتكيف الذهني، وتُقلل من التزامن المفرط مع الأنماط الضيقة، وتساهم في تعزيز موثوقية نماذج اللغة الكبيرة في اتباع التعليمات في السياقات المتنوعة وغير المتوقعة في العالم الحقيقي.