إعادة النظر في قدرة النماذج اللغوية الكبيرة على التعميم التركيبي مع مراعاة قدرتها على اتباع التعليمات

في مهام الاستدلال الشائع التوليدي مثل CommonGen، تقوم نماذج اللغة الكبيرة التوليدية (LLMs) بتكوين جمل تشمل جميع المفاهيم المعطاة. ومع ذلك، عند التركيز على قدرات اتباع التعليمات، إذا حددت الدعوة ترتيبًا معينًا للمفاهيم، يجب على نماذج اللغة الكبيرة إنشاء جمل تلتزم بالترتيب المحدد. لمعالجة هذا الأمر، نقترح Ordered CommonGen، وهو معيار مصمم لتقييم التعميم التوليدي والقدرة على اتباع التعليمات في نماذج اللغة الكبيرة. يقيس هذا المعيار التغطية المرتبة لتحديد ما إذا تم توليد المفاهيم بالترتيب المحدد، مما يسمح بتقييم متزامن لكلا القدرتين. أجرينا تحليلًا شاملًا باستخدام 36 نموذجًا للغة الكبيرة ووجدنا أن هذه النماذج فهمت بشكل عام نوايا التعليمات، ولكن الانحياز نحو أنماط معينة من ترتيب المفاهيم غالبًا ما يؤدي إلى إخراج منخفض التنوع أو نتائج متطابقة حتى عند تغيير ترتيب المفاهيم. علاوة على ذلك، حتى أكثر نماذج اللغة الكبيرة امتثالاً للتعليمات حققت فقط حوالي 75% من التغطية المرتبة، مما يؤكد الحاجة إلى تحسينات في كل من قدرات اتباع التعليمات والتعميم التوليدي.